このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240406となっている論文です。

PDF登録状況(公開日: 20240406)

TitleAuthorsAbstract論文公表日・翻訳日
# 構造的に柔軟なニューラルネットワーク:汎用エージェントのためのビルディングブロックを進化させる

Structurally Flexible Neural Networks: Evolving the Building Blocks for General Agents ( http://arxiv.org/abs/2404.15193v1 )

ライセンス: Link先を確認
Joachim Winther Pedersen, Erwan Plantec, Eleni Nisioti, Milton Montero, Sebastian Risi, (参考訳) 強化学習に使用される人工ニューラルネットワークは構造的に剛性があり、ネットワークのそれぞれの最適化されたパラメータは、ネットワーク構造内の特定の位置と結びついている。 また、ネットワークは事前に定義された、固定された入力サイズと出力サイズでしか動作しない。 これは、最適化されたパラメータの数がネットワーク構造に直接依存する結果である。 構造的剛性は、入力空間と出力空間を共有しない複数の環境にまたがるポリシーのパラメータを最適化する能力を制限する。 そこで我々は、それぞれゲートリカレントユニット(GRU)で表される神経細胞とプラスチックシナプスの集合を進化させる。 最適化の間、ニューラルネットワークの基本単位のパラメータは、異なるランダムな構造構成で最適化される。 これまでの研究では、構造的に柔軟なニューロンを作るためには、ユニット間のパラメータ共有が重要であることが示されており、対称性ジレンマの緩和を可能にする、異なるニューロンとシナプス型のセットを最適化できることが示されている。 一つのニューロンとシナプスの集合を最適化して、複数の強化学習制御タスクを同時に解くことで、これを実証する。

Artificial neural networks used for reinforcement learning are structurally rigid, meaning that each optimized parameter of the network is tied to its specific placement in the network structure. It also means that a network only works with pre-defined and fixed input- and output sizes. This is a consequence of having the number of optimized parameters being directly dependent on the structure of the network. Structural rigidity limits the ability to optimize parameters of policies across multiple environments that do not share input and output spaces. Here, we evolve a set of neurons and plastic synapses each represented by a gated recurrent unit (GRU). During optimization, the parameters of these fundamental units of a neural network are optimized in different random structural configurations. Earlier work has shown that parameter sharing between units is important for making structurally flexible neurons We show that it is possible to optimize a set of distinct neuron- and synapse types allowing for a mitigation of the symmetry dilemma. We demonstrate this by optimizing a single set of neurons and synapses to solve multiple reinforcement learning control tasks simultaneously.
翻訳日:2024-04-28 11:06:36 公開日:2024-04-06
# シグネチャ理論を用いた脳波の時間位相解析

Time topological analysis of EEG using signature theory ( http://arxiv.org/abs/2404.15328v1 )

ライセンス: Link先を確認
Stéphane Chrétien, Ben Gao, Astrid Thebault-Guiochon, Rémi Vaucher, (参考訳) 多変量信号の異常検出は多くの分野(疫学、金融学、認知科学、神経科学、腫瘍学など)において最重要課題である。 この観点から、トポロジカルデータ分析(TDA)は、効果的な検出方式の実装に活用できる「形状」不変量の電池を提供する。 コントリビューションは,信号のシグナチャと予測能力からsimplicial Complexの構築に関する, \cite{chretienleveraging} で提示された構成を拡張して構成する。 署名理論は、Terry Lyons と彼のチーム \cite{lyons 2002system} が開発したラフパスの概念に関する最近の研究から生まれた機械学習のarXiv:1603.03788の新しいテーマである。 特に, ホモロジーの持続性や, コンプレックスに導入されたベッチ数の変化の追跡に基づくトポロジーの変化の検出について検討する。 脳波などの脳信号の解析にツールを応用してててんかん発作の前兆現象を検出する。

Anomaly detection in multivariate signals is a task of paramount importance in many disciplines (epidemiology, finance, cognitive sciences and neurosciences, oncology, etc.). In this perspective, Topological Data Analysis (TDA) offers a battery of "shape" invariants that can be exploited for the implementation of an effective detection scheme. Our contribution consists of extending the constructions presented in \cite{chretienleveraging} on the construction of simplicial complexes from the Signatures of signals and their predictive capacities, rather than the use of a generic distance as in \cite{petri2014homological}. Signature theory is a new theme in Machine Learning arXiv:1603.03788 stemming from recent work on the notions of Rough Paths developed by Terry Lyons and his team \cite{lyons2002system} based on the formalism introduced by Chen \cite{chen1957integration}. We explore in particular the detection of changes in topology, based on tracking the evolution of homological persistence and the Betti numbers associated with the complex introduced in \cite{chretienleveraging}. We apply our tools for the analysis of brain signals such as EEG to detect precursor phenomena to epileptic seizures.
翻訳日:2024-04-28 10:56:51 公開日:2024-04-06
# RecGPT:ChatGPTトレーニングパラダイムによるシーケンスレコメンデーションのための生成的パーソナライズされたプロンプト

RecGPT: Generative Personalized Prompts for Sequential Recommendation via ChatGPT Training Paradigm ( http://arxiv.org/abs/2404.08675v1 )

ライセンス: Link先を確認
Yabin Zhang, Wenhui Yu, Erhan Zhang, Xu Chen, Lantao Hu, Peng Jiang, Kun Gai, (参考訳) ChatGPTは自然言語理解において顕著な成功を収めた。 ChatGPTと類似したパターンを持つユーザと商品を単語として扱うシステムとの会話を実際に考慮し,提案タスクの項目インデックスレベルに新たなチャットフレームワークを設計する。 私たちのノベルティは、主にモデル、トレーニング、推論の3つの部分を含む。 モデル部分には、逐次レコメンデーションモデルとしてジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)を採用し、パーソナライズされた情報をキャプチャするためのユーザ・モジュールを設計する。 トレーニング部分には、事前学習や微調整を含む2段階のChatGPTパラダイムを採用する。 事前学習の段階では、自動回帰によりGPTモデルを訓練する。 微調整の段階では、モデルから新たに生成された結果とユーザのフィードバックの両方を含むプロンプトでモデルを訓練する。 推測部分には,自己回帰的手法でユーザ表現としていくつかのユーザ関心を予測する。 各興味ベクトルについて、最も類似度が高いいくつかの項目をリコールし、すべての興味ベクトルによってリコールされた項目を最終結果にマージする。 オフラインの公開データセットとオンラインA/Bテストの両方を用いて実験を行い、提案手法の有効性を実証する。

ChatGPT has achieved remarkable success in natural language understanding. Considering that recommendation is indeed a conversation between users and the system with items as words, which has similar underlying pattern with ChatGPT, we design a new chat framework in item index level for the recommendation task. Our novelty mainly contains three parts: model, training and inference. For the model part, we adopt Generative Pre-training Transformer (GPT) as the sequential recommendation model and design a user modular to capture personalized information. For the training part, we adopt the two-stage paradigm of ChatGPT, including pre-training and fine-tuning. In the pre-training stage, we train GPT model by auto-regression. In the fine-tuning stage, we train the model with prompts, which include both the newly-generated results from the model and the user's feedback. For the inference part, we predict several user interests as user representations in an autoregressive manner. For each interest vector, we recall several items with the highest similarity and merge the items recalled by all interest vectors into the final result. We conduct experiments with both offline public datasets and online A/B test to demonstrate the effectiveness of our proposed method.
翻訳日:2024-04-21 19:54:47 公開日:2024-04-06
# ALERT: 大規模言語モデルの安全性を評価するための総合ベンチマーク

ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming ( http://arxiv.org/abs/2404.08676v1 )

ライセンス: Link先を確認
Simone Tedeschi, Felix Friedrich, Patrick Schramowski, Kristian Kersting, Roberto Navigli, Huu Nguyen, Bo Li, (参考訳) LLM(Large Language Models)を構築する場合、安全を念頭に置いてガードレールで保護することが最重要である。 実際、LLMは、個人や社会に害をもたらす可能性のある有害、違法、または非倫理的な行動を促進または正規化するコンテンツを生成するべきではない。 この原則は、通常の使用と敵対的な使用の両方に適用される。 そこで本研究では,新たなリスク分類法に基づく安全性評価のための大規模ベンチマークであるALERTを紹介する。 LLMの安全性をレッドチーム方式で評価するために設計され、新しい分類法を用いて分類された45k以上の命令から構成される。 敵対的なテストシナリオにLLMを適用することで、ALERTは脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目指している。 さらに、きめ細かい分類法により、研究者は、様々なポリシーとの整合性を評価するのに役立つ詳細な評価を行うことができる。 実験では,10のオープンソースおよびクローズドソース LLM を広範囲に評価し,その多くが依然として適切なレベルの安全性を達成するのに苦慮していることを示す。

When building Large Language Models (LLMs), it is paramount to bear safety in mind and protect them with guardrails. Indeed, LLMs should never generate content promoting or normalizing harmful, illegal, or unethical behavior that may contribute to harm to individuals or society. This principle applies to both normal and adversarial use. In response, we introduce ALERT, a large-scale benchmark to assess safety based on a novel fine-grained risk taxonomy. It is designed to evaluate the safety of LLMs through red teaming methodologies and consists of more than 45k instructions categorized using our novel taxonomy. By subjecting LLMs to adversarial testing scenarios, ALERT aims to identify vulnerabilities, inform improvements, and enhance the overall safety of the language models. Furthermore, the fine-grained taxonomy enables researchers to perform an in-depth evaluation that also helps one to assess the alignment with various policies. In our experiments, we extensively evaluate 10 popular open- and closed-source LLMs and demonstrate that many of them still struggle to attain reasonable levels of safety.
翻訳日:2024-04-21 19:54:47 公開日:2024-04-06
# 大規模言語モデルに対するゴール誘導型ジェネレータインジェクションインジェクションアタック

Goal-guided Generative Prompt Injection Attack on Large Language Models ( http://arxiv.org/abs/2404.07234v1 )

ライセンス: Link先を確認
Chong Zhang, Mingyu Jin, Qinkai Yu, Chengzhi Liu, Haochen Xue, Xiaobo Jin, (参考訳) 現在の大規模言語モデル(LLM)は、大規模ユーザ指向自然言語タスクの強力な基盤を提供する。 多数のユーザがユーザインターフェースを通じて逆テキストや命令を簡単にインジェクトできるため、LLMはセキュリティ上の課題をモデル化する。 現在、プロンプト・インジェクション・アタックに関する研究は多いが、ブラックボックス・アタックのほとんどはヒューリスティック・ストラテジーを使用している。 これらのヒューリスティック戦略が攻撃の成功率とどのように関係し、モデルロバストネスを効果的に改善するかは不明である。 この問題を解決するために、クリーンテキストと逆テキストの条件付き確率のKL差を最大化するという攻撃の目標を再定義する。 さらに、KLの発散を最大化することは、条件確率がガウス分布であるとき、クリーンテキストの埋め込み表現である$x$と$x’$の間のマハラノビス距離を最大化し、$x$と$x’$の量的関係を与えることと同値であることを示す。 そこで我々は,目標誘導型ジェネレーション・インジェクション・ストラテジー(G2PIA)を設計し,最適攻撃効果を概ね達成するために,特定の制約を満たすインジェクション・テキストを求める。 特に,我々の攻撃法は,計算コストの低いクエリフリーなブラックボックス攻撃法である。 7つのLLMモデルと4つのデータセットの実験結果から,攻撃手法の有効性が示された。

Current large language models (LLMs) provide a strong foundation for large-scale user-oriented natural language tasks. A large number of users can easily inject adversarial text or instructions through the user interface, thus causing LLMs model security challenges. Although there is currently a large amount of research on prompt injection attacks, most of these black-box attacks use heuristic strategies. It is unclear how these heuristic strategies relate to the success rate of attacks and thus effectively improve model robustness. To solve this problem, we redefine the goal of the attack: to maximize the KL divergence between the conditional probabilities of the clean text and the adversarial text. Furthermore, we prove that maximizing the KL divergence is equivalent to maximizing the Mahalanobis distance between the embedded representation $x$ and $x'$ of the clean text and the adversarial text when the conditional probability is a Gaussian distribution and gives a quantitative relationship on $x$ and $x'$. Then we designed a simple and effective goal-guided generative prompt injection strategy (G2PIA) to find an injection text that satisfies specific constraints to achieve the optimal attack effect approximately. It is particularly noteworthy that our attack method is a query-free black-box attack method with low computational cost. Experimental results on seven LLM models and four datasets show the effectiveness of our attack method.
翻訳日:2024-04-12 17:46:48 公開日:2024-04-06
# Crowd-Kitで群衆から学ぶ

Learning from Crowds with Crowd-Kit ( http://arxiv.org/abs/2109.08584v4 )

ライセンス: Link先を確認
Dmitry Ustalov, Nikita Pavlichenko, Boris Tseitlin, (参考訳) 本稿では,クラウドソーシングのための汎用計算品質管理ツールキットであるCrowd-Kitを提案する。 Crowd-Kitは、真実推論、群衆からのディープラーニング、データ品質推定など、Pythonで一般的な品質管理アルゴリズムの効率的で便利な実装を提供する。 我々のツールキットは、複数の回答のモダリティをサポートし、より高速なプロトタイピングのためのデータセットローダとサンプルノートを提供する。 我々は、異なる性質のデータセットでツールキットを広範囲に評価し、同じコードベースを使って一様で体系的で再現可能な方法で計算品質管理手法のベンチマークを可能にした。 私たちはApache License 2.0の下でコードとデータをhttps://github.com/Toloka/crowd-kit.comでリリースしています。

This paper presents Crowd-Kit, a general-purpose computational quality control toolkit for crowdsourcing. Crowd-Kit provides efficient and convenient implementations of popular quality control algorithms in Python, including methods for truth inference, deep learning from crowds, and data quality estimation. Our toolkit supports multiple modalities of answers and provides dataset loaders and example notebooks for faster prototyping. We extensively evaluated our toolkit on several datasets of different natures, enabling benchmarking computational quality control methods in a uniform, systematic, and reproducible way using the same codebase. We release our code and data under the Apache License 2.0 at https://github.com/Toloka/crowd-kit.
翻訳日:2024-04-10 21:05:06 公開日:2024-04-06
# がん患者の副作用予測における人工知能の有効性の評価 : システムレビューとメタ分析

Evaluating the Effectiveness of Artificial Intelligence in Predicting Adverse Drug Reactions among Cancer Patients: A Systematic Review and Meta-Analysis ( http://arxiv.org/abs/2404.05762v1 )

ライセンス: Link先を確認
Fatma Zahra Abdeldjouad, Menaouer Brahami, Mohammed Sabri, (参考訳) 副作用の薬物反応は、がん治療における患者の結果と医療費に大きな影響を及ぼす。 人工知能を使って、リアルタイムで有害な薬物反応を予測することで、腫瘍治療に革命をもたらす可能性がある。 本研究の目的は, がん患者の薬物反応予測における人工知能モデルの性能を評価することである。 これは、最初の体系的なレビューとメタ分析である。 2018年1月1日から2023年8月20日まで、スコパス、PubMed、IEEE Xplore、ACMデジタルライブラリーのデータベースを英語、フランス語、アラビア語で検索した。 対象は,(1)ピアレビュー研究論文,(2)人工知能アルゴリズム(機械学習,深層学習,知識グラフ)の使用,(3)有害薬物反応(心毒性,好中球減少,腎毒性,肝毒性)の予測を目的とした研究,(4)がん患者を対象にした研究であった。 データの抽出と評価は3人のレビュアーが行った。 332項目のうち、17か国93,248人の腫瘍学患者を対象とする17研究(5%)が体系的なレビューに含まれ、そのうち10研究がメタアナリシスを合成した。 対象とする研究の感度、特異性、およびAUCをプールするためにランダムエフェクトモデルが作成された。 ADR予測モデルの感度は0.82(95% CI:0.69, 0.9),0.84(95% CI:0.75, 0.9),0.83(95% CI:0.77, 0.87)であった。 バイオマーカーは、ADRを予測する効果を証明したが、レビューされた研究の半分しか採用されなかった。 がん治療におけるAIの使用は、ADRの予測に高い特異性と感度を示すモデルによって、大きな可能性を示している。 しかし,証拠の質を向上させるためには,標準化された研究と多施設研究が必要である。 AIは、データ駆動の洞察と臨床の専門知識のギャップを埋めることで、がん患者のケアを強化することができる。

Adverse drug reactions considerably impact patient outcomes and healthcare costs in cancer therapy. Using artificial intelligence to predict adverse drug reactions in real time could revolutionize oncology treatment. This study aims to assess the performance of artificial intelligence models in predicting adverse drug reactions in patients with cancer. This is the first systematic review and meta-analysis. Scopus, PubMed, IEEE Xplore, and ACM Digital Library databases were searched for studies in English, French, and Arabic from January 1, 2018, to August 20, 2023. The inclusion criteria were: (1) peer-reviewed research articles; (2) use of artificial intelligence algorithms (machine learning, deep learning, knowledge graphs); (3) study aimed to predict adverse drug reactions (cardiotoxicity, neutropenia, nephrotoxicity, hepatotoxicity); (4) study was on cancer patients. The data were extracted and evaluated by three reviewers for study quality. Of the 332 screened articles, 17 studies (5%) involving 93,248 oncology patients from 17 countries were included in the systematic review, of which ten studies synthesized the meta-analysis. A random-effects model was created to pool the sensitivity, specificity, and AUC of the included studies. The pooled results were 0.82 (95% CI:0.69, 0.9), 0.84 (95% CI:0.75, 0.9), and 0.83 (95% CI:0.77, 0.87) for sensitivity, specificity, and AUC, respectively, of ADR predictive models. Biomarkers proved their effectiveness in predicting ADRs, yet they were adopted by only half of the reviewed studies. The use of AI in cancer treatment shows great potential, with models demonstrating high specificity and sensitivity in predicting ADRs. However, standardized research and multicenter studies are needed to improve the quality of evidence. AI can enhance cancer patient care by bridging the gap between data-driven insights and clinical expertise.
翻訳日:2024-04-10 18:58:15 公開日:2024-04-06
# 深層学習に基づく自動腫瘍検出のための脳画像分割

Deep Learning-Based Brain Image Segmentation for Automated Tumour Detection ( http://arxiv.org/abs/2404.05763v1 )

ライセンス: Link先を確認
Suman Sourabh, Murugappan Valliappan, Narayana Darapaneni, Anwesh R P, (参考訳) 紹介:3D U-Netモデルを用いた深層学習に基づく脳腫瘍自動分節法の開発と評価に関する研究。 目的: 目的は、最先端の畳み込みニューラルネットワーク(CNN)を、セグメント化のための脳MRIスキャンの大規模なデータセットに活用することである。 方法: 提案手法は, 性能向上と一般化性向上のために前処理技術を適用する。 結果: 独立したデータセットに対する広範囲な検証は、モデルの堅牢性と臨床ワークフローへの統合の可能性を確認する。 この研究は、データ前処理の重要性を強調し、モデルの性能を最適化するために様々なハイパーパラメータを探索する。 3D U-Netは、トレーニングと検証データセットにIoUを付与しており、それぞれ0.8181と0.66である。 結論: この包括的枠組みは、脳腫瘍検出の自動化におけるディープラーニングの有効性を示し、臨床実践において貴重な支援を提供する。

Introduction: The present study on the development and evaluation of an automated brain tumor segmentation technique based on deep learning using the 3D U-Net model. Objectives: The objective is to leverage state-of-the-art convolutional neural networks (CNNs) on a large dataset of brain MRI scans for segmentation. Methods: The proposed methodology applies pre-processing techniques for enhanced performance and generalizability. Results: Extensive validation on an independent dataset confirms the model's robustness and potential for integration into clinical workflows. The study emphasizes the importance of data pre-processing and explores various hyperparameters to optimize the model's performance. The 3D U-Net, has given IoUs for training and validation dataset have been 0.8181 and 0.66 respectively. Conclusion: Ultimately, this comprehensive framework showcases the efficacy of deep learning in automating brain tumour detection, offering valuable support in clinical practice.
翻訳日:2024-04-10 18:58:15 公開日:2024-04-06
# ブラインド映像品質評価におけるシャープネスの影響の検討

Study of the effect of Sharpness on Blind Video Quality Assessment ( http://arxiv.org/abs/2404.05764v1 )

ライセンス: Link先を確認
Anantha Prabhu, David Pratap, Narayana Darapeni, Anwesh P R, (参考訳) 紹介:ビデオ品質アセスメント(VQA)は、ビデオがあらゆる分野のアプリケーションとのコミュニケーションにおいて重要な要素である現代における重要な研究分野の1つである。 モバイル技術における急速な技術開発により、誰でも様々なビデオ品質シナリオを生んだ動画を作成できるようになった。 目的: VQAは、SSIMやPSNRのような古典的なメトリクスでしばらくの間存在していたが、機械学習の出現は、畳み込みニューラルネットワーク(CNN)やディープニューラルネットワーク(DNN)に基づいて構築されたVQAの新しい技術をもたらした。 方法:過去数年間,DNNを用いた自然ビデオの映像品質評価を行うBVQAなど,さまざまな研究が,機械学習アルゴリズムの強力な能力を明らかにしている。 DNNを用いたBVQAは、コンテンツ依存や時間的効果として知られる時間的要因のような人間の視覚システム効果を探索した。 結果:本研究では,BVQAのようなモデルに対するシャープネス効果について検討した。 シャープネス(Sharpness)は、ビデオ画像の明快さと細部を測る尺度である。 シャープネスは通常、画像のエッジとコントラストを分析して、詳細とシャープネスの全体レベルを決定する。 結論:本研究では,CVD2014などの既存の映像品質データベースを用いた。 トレーニングおよびテスト中のSRCCやPLCCなどの各種機械学習パラメータの比較研究は、その結論とともに提示される。

Introduction: Video Quality Assessment (VQA) is one of the important areas of study in this modern era, where video is a crucial component of communication with applications in every field. Rapid technology developments in mobile technology enabled anyone to create videos resulting in a varied range of video quality scenarios. Objectives: Though VQA was present for some time with the classical metrices like SSIM and PSNR, the advent of machine learning has brought in new techniques of VQAs which are built upon Convolutional Neural Networks (CNNs) or Deep Neural Networks (DNNs). Methods: Over the past years various research studies such as the BVQA which performed video quality assessment of nature-based videos using DNNs exposed the powerful capabilities of machine learning algorithms. BVQA using DNNs explored human visual system effects such as content dependency and time-related factors normally known as temporal effects. Results: This study explores the sharpness effect on models like BVQA. Sharpness is the measure of the clarity and details of the video image. Sharpness typically involves analyzing the edges and contrast of the image to determine the overall level of detail and sharpness. Conclusion: This study uses the existing video quality databases such as CVD2014. A comparative study of the various machine learning parameters such as SRCC and PLCC during the training and testing are presented along with the conclusion.
翻訳日:2024-04-10 18:58:15 公開日:2024-04-06
# タブラ音楽生成のためのBi-LSTMとトランスフォーマーアーキテクチャ

A Novel Bi-LSTM And Transformer Architecture For Generating Tabla Music ( http://arxiv.org/abs/2404.05765v1 )

ライセンス: Link先を確認
Roopa Mayya, Vivekanand Venkataraman, Anwesh P R, Narayana Darapaneni, (参考訳) 紹介:音楽生成は,近年注目されている複雑な課題であり,深層学習技術はこの分野で有望な成果を上げている。 目的: ピアノやその他の西洋音楽の創出について広範な研究がなされてきたが、インド音楽の機械符号化形式による不足による古典的なインド音楽の創出についての研究は限られている。 本稿では,古典インド音楽,特にタブラ音楽を生成する手法を提案する。 本稿ではまず,ディープラーニングアーキテクチャを用いたピアノ音楽生成について検討する。 そして、基本をタブラ音楽を生成するよう拡張する。 メソッド: 波形 (.wav) ファイル中の Tabla 音楽は Python の librosa ライブラリを使って事前処理される。 アテンションアプローチとトランスフォーマーモデルを備えた新しいBi-LSTMを抽出した特徴とラベルに基づいて訓練する。 結果: モデルはタブラ音楽の次のシーケンスを予測するために使用される。 4.042 と 1.0814 の MAE の損失は Bi-LSTM モデルによって達成される。 変圧器モデルでは、タブラ音楽生成のために55.9278と3.5173のMAEの損失が得られる。 結論: 結果として生まれた音楽は、新奇さと親密さの調和した融合を具現化し、作曲の限界を新たな地平線に押し上げる。

Introduction: Music generation is a complex task that has received significant attention in recent years, and deep learning techniques have shown promising results in this field. Objectives: While extensive work has been carried out on generating Piano and other Western music, there is limited research on generating classical Indian music due to the scarcity of Indian music in machine-encoded formats. In this technical paper, methods for generating classical Indian music, specifically tabla music, is proposed. Initially, this paper explores piano music generation using deep learning architectures. Then the fundamentals are extended to generating tabla music. Methods: Tabla music in waveform (.wav) files are pre-processed using the librosa library in Python. A novel Bi-LSTM with an Attention approach and a transformer model are trained on the extracted features and labels. Results: The models are then used to predict the next sequences of tabla music. A loss of 4.042 and MAE of 1.0814 are achieved with the Bi-LSTM model. With the transformer model, a loss of 55.9278 and MAE of 3.5173 are obtained for tabla music generation. Conclusion: The resulting music embodies a harmonious fusion of novelty and familiarity, pushing the limits of music composition to new horizons.
翻訳日:2024-04-10 18:58:15 公開日:2024-04-06
# 代数的単語問題からプログラムへ:形式化されたアプローチ

From Algebraic Word Problem to Program: A Formalized Approach ( http://arxiv.org/abs/2003.11517v2 )

ライセンス: Link先を確認
Adam Wiemerslage, Shafiuddin Rehan Ahmed, (参考訳) 本稿では,小学校の代数語問題を正規言語A-IMPのプログラムに変換するパイプラインを提案する。 自然言語処理ツールを使用して、問題を文の断片に分解し、関数に還元する。 関数は文の頭動詞とその構造によって分類される(Hosseini et al , 2014)。 関数シグネチャを定義し、依存関係解析を用いてテキストから引数を抽出する。 パイプライン全体の動作実装は、githubリポジトリで確認できます。

In this paper, we propose a pipeline to convert grade school level algebraic word problem into program of a formal languageA-IMP. Using natural language processing tools, we break the problem into sentence fragments which can then be reduced to functions. The functions are categorized by the head verb of the sentence and its structure, as defined by (Hosseini et al., 2014). We define the function signature and extract its arguments from the text using dependency parsing. We have a working implementation of the entire pipeline which can be found on our github repository.
翻訳日:2024-04-10 06:04:02 公開日:2024-04-06
# BERTに基づく文脈表現を用いた文書内イベント照合

Within-Document Event Coreference with BERT-Based Contextualized Representations ( http://arxiv.org/abs/2102.09600v2 )

ライセンス: Link先を確認
Shafiuddin Rehan Ahmed, James H. Martin, (参考訳) イベントのコア推論は、情報抽出において難しい問題であり続けている。 イベントの外部知識ベースが存在しないため、コア参照はイベントが参照するコンテキストの効果的な表現に依存するクラスタリングタスクになる。 文脈化言語表現の最近の進歩は多くのタスクで成功したが、イベントリンクでの使用は限られていた。 本稿では,(1)事前学習されたBERTモデルから導出された表現を用いて,(2)ニューラルネットワーク分類器を訓練し,(3)単純なクラスタリングアルゴリズムを駆動してコア参照連鎖を生成する3つのアプローチを提案する。 我々は、このモデルを用いて、文書内イベントコア参照タスク用の2つの標準データセット上で、最先端の結果を達成し、第3の新たなデータセットに新しい標準を確立する。

Event coreference continues to be a challenging problem in information extraction. With the absence of any external knowledge bases for events, coreference becomes a clustering task that relies on effective representations of the context in which event mentions appear. Recent advances in contextualized language representations have proven successful in many tasks, however, their use in event linking been limited. Here we present a three part approach that (1) uses representations derived from a pretrained BERT model to (2) train a neural classifier to (3) drive a simple clustering algorithm to create coreference chains. We achieve state of the art results with this model on two standard datasets for within-document event coreference task and establish a new standard on a third newer dataset.
翻訳日:2024-04-10 06:04:02 公開日:2024-04-06
# 条件付きテクスチャと構造双対生成による画像塗布

Image Inpainting via Conditional Texture and Structure Dual Generation ( http://arxiv.org/abs/2108.09760v2 )

ライセンス: Link先を確認
Xiefan Guo, Hongyu Yang, Di Huang, (参考訳) 深部生成的アプローチは、最近、構造先行の導入により、画像の塗布にかなりの進歩をもたらした。 しかし, 構造復元における画像テクスチャとの適切な相互作用が欠如しているため, 現状の解法は大規模な汚職を抱える場合の処理には不適であり, 概して歪曲した結果に悩まされる。 本稿では, 構造制約によるテクスチャ合成とテクスチャ誘導による構造再構成を結合的にモデル化し, より高信頼な生成のために相互に有効に活用する, 画像インパインティングのための新しい2ストリームネットワークを提案する。 さらに、グローバルな一貫性を高めるため、構造情報とテクスチャ情報を交換・結合する双方向Gated Feature Fusion(Bi-GFF)モジュールと、領域親和性学習とマルチスケール特徴集約により生成されたコンテンツを洗練するためのコンテキスト特徴集約(CFA)モジュールを開発する。 CelebA、Paris StreetView、Places2データセットの定性的および定量的実験は、提案手法の優位性を示している。 私たちのコードはhttps://github.com/Xiefan-Guo/CTSDG.comで公開されています。

Deep generative approaches have recently made considerable progress in image inpainting by introducing structure priors. Due to the lack of proper interaction with image texture during structure reconstruction, however, current solutions are incompetent in handling the cases with large corruptions, and they generally suffer from distorted results. In this paper, we propose a novel two-stream network for image inpainting, which models the structure-constrained texture synthesis and texture-guided structure reconstruction in a coupled manner so that they better leverage each other for more plausible generation. Furthermore, to enhance the global consistency, a Bi-directional Gated Feature Fusion (Bi-GFF) module is designed to exchange and combine the structure and texture information and a Contextual Feature Aggregation (CFA) module is developed to refine the generated contents by region affinity learning and multi-scale feature aggregation. Qualitative and quantitative experiments on the CelebA, Paris StreetView and Places2 datasets demonstrate the superiority of the proposed method. Our code is available at https://github.com/Xiefan-Guo/CTSDG.
翻訳日:2024-04-10 06:04:02 公開日:2024-04-06
# 富裕層向け部分自家用鉱業

Partial Selfish Mining for More Profits ( http://arxiv.org/abs/2207.13478v2 )

ライセンス: Link先を確認
Jiaping Yu, Shang Gao, Rui Song, Zhiping Cai, Bin Xiao, (参考訳) マイニング攻撃は、ブロックチェーンマイニングにおける余分な報酬の不正なシェアを獲得することを目的としている。 自尊心のある鉱業は発見されたブロックを保存し、それらを戦略的に解放し、正直な鉱夫の計算資源を浪費し、高い利益を得る。 以前のマイニング攻撃は、採掘されたブロック全体を隠蔽する(隠蔽または破棄する)か、特定のタイムスロットで完全に解放する(例えば、フォークを発生させる)。 本稿では, マイニング攻撃の戦略空間を部分的ブロック共有に拡張し, 新たに実現可能な部分自家用マイニング(PSM)攻撃を提案する。 我々は、部分的ブロックデータを公開し、アタッカーのプライベートブランチに取り組む合理的な鉱山労働者を引き付けることによって、アタッカーとこれらの誘致された鉱山労働者は、不公平なマイニング報酬を得られることを示した。 次に,攻撃者の利益をさらに向上し,利己的なマイニングに匹敵するアドバンストPSM(A-PSM)攻撃を提案する。 理論的および実験的な結果から、PSM攻撃者は、ある範囲の採掘力とネットワーク条件下で、利己的な鉱山労働者よりも利益を得られることが示されている。 A-PSM攻撃者は利己的な鉱業と利己的な鉱業よりも高い利益を得ることができる。

Mining attacks aim to gain an unfair share of extra rewards in the blockchain mining. Selfish mining can preserve discovered blocks and strategically release them, wasting honest miners' computing resources and getting higher profits. Previous mining attacks either conceal the mined whole blocks (hiding or discarding), or release them completely in a particular time slot (e.g., causing a fork). In this paper, we extend the mining attack's strategy space to partial block sharing, and propose a new and feasible Partial Selfish Mining (PSM) attack. We show that by releasing partial block data publicly and attracting rational miners to work on attacker's private branch, attackers and these attracted miners can gain an unfair share of mining rewards. We then propose Advanced PSM (A-PSM) attack that can further improve attackers' profits to be no less than the selfish mining. Both theoretical and experimental results show that PSM attackers can be more profitable than selfish miners under a certain range of mining power and network conditions. A-PSM attackers can gain even higher profits than both selfish mining and honest mining with attracted rational miners.
翻訳日:2024-04-10 05:56:30 公開日:2024-04-06
# L2SR:強化学習による加速MRIのサンプル学習と再構成

L2SR: Learning to Sample and Reconstruct for Accelerated MRI via Reinforcement Learning ( http://arxiv.org/abs/2212.02190v3 )

ライセンス: Link先を確認
Pu Yang, Bin Dong, (参考訳) 磁気共鳴イメージング(MRI)は広く用いられている医療画像技術であるが、その長期取得は臨床環境での限界要因となる可能性がある。 この問題に対処するため、研究者は再建の質を維持しながら取得時間を短縮する方法を模索している。 従来の研究は、固定された再構成器でスパースサンプリング器を見つけるか、固定されたサンプリング器で再構成器を見つけることに重点を置いていた。 しかし, これらの手法は, サンプルと再構成者の共同学習の可能性を十分に活用していない。 本稿では, 深層強化学習(RL)を用いて, 優れたサンプルと再構成器のペアを共同で学習するための交互学習フレームワークを提案する。 特に,MRIサンプリングの過程をサンプリング器が制御するサンプリング軌跡として考慮し,新しいスパース逆部分観察マルコフ決定過程(POMDP)を導入し,MRIサンプリング軌跡を定式化する。 既存の研究で使われている高密度逆数POMDPと比較して、提案したスパース逆数POMDPは計算効率が良く、証明可能な利点がある。 さらに、L2SR(Learning to Sample and Reconstruct)と呼ばれるフレームワークは、より密逆のPMDPを使用する従来の手法で発生するトレーニングミスマッチ問題を克服する。 L2SRは、サンプリング器と再構成器を交互に更新することにより、ファストMRIデータセット上で最先端の再構成性能を達成するサンプル器と再構成器のペアを学習する。 コードは \url{https://github.com/yangpuPKU/L2SR-Learning-to-Sample-and-Reconstruct} で公開されている。

Magnetic Resonance Imaging (MRI) is a widely used medical imaging technique, but its long acquisition time can be a limiting factor in clinical settings. To address this issue, researchers have been exploring ways to reduce the acquisition time while maintaining the reconstruction quality. Previous works have focused on finding either sparse samplers with a fixed reconstructor or finding reconstructors with a fixed sampler. However, these approaches do not fully utilize the potential of joint learning of samplers and reconstructors. In this paper, we propose an alternating training framework for jointly learning a good pair of samplers and reconstructors via deep reinforcement learning (RL). In particular, we consider the process of MRI sampling as a sampling trajectory controlled by a sampler, and introduce a novel sparse-reward Partially Observed Markov Decision Process (POMDP) to formulate the MRI sampling trajectory. Compared to the dense-reward POMDP used in existing works, the proposed sparse-reward POMDP is more computationally efficient and has a provable advantage. Moreover, the proposed framework, called L2SR (Learning to Sample and Reconstruct), overcomes the training mismatch problem that arises in previous methods that use dense-reward POMDP. By alternately updating samplers and reconstructors, L2SR learns a pair of samplers and reconstructors that achieve state-of-the-art reconstruction performances on the fastMRI dataset. Codes are available at \url{https://github.com/yangpuPKU/L2SR-Learning-to-Sample-and-Reconstruct}.
翻訳日:2024-04-10 05:46:40 公開日:2024-04-06
# 説明法による変圧器とCNNによる意思決定メカニズムの比較

Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods ( http://arxiv.org/abs/2212.06872v4 )

ライセンス: Link先を確認
Mingqi Jiang, Saeed Khorram, Li Fuxin, (参考訳) 異なる視覚的認識バックボーンの意思決定に関する知見を得るために,データセット全体にわたって深い説明アルゴリズムを体系的に適用し,説明の量と性質から得られた統計を比較検討する,部分説明カウントとクロステストという2つの手法を提案する。 これらの手法は、構成性と可分性と呼ばれる2つの性質の観点から、ネットワーク間の差異を明らかにする。 トランスフォーマーとConvNeXtは、画像の複数の部分を共同で検討し、従来のCNNと蒸留トランスフォーマーはより構成的であり、より分離的であるため、複数の多様な、より小さな部品を用いて、自信ある予測を下すことができる。 さらなる実験を通じて、モデルの構成性において特に重要な正規化の選択は、バッチ正規化によって構成性が低下する一方、グループおよび層正規化はより重要となる。 最後に、異なるバックボーンで共有される機能を分析し、それらの機能利用の類似性に基づいて、異なるモデルのランドスケープをプロットする。

In order to gain insights about the decision-making of different visual recognition backbones, we propose two methodologies, sub-explanation counting and cross-testing, that systematically applies deep explanation algorithms on a dataset-wide basis, and compares the statistics generated from the amount and nature of the explanations. These methodologies reveal the difference among networks in terms of two properties called compositionality and disjunctivism. Transformers and ConvNeXt are found to be more compositional, in the sense that they jointly consider multiple parts of the image in building their decisions, whereas traditional CNNs and distilled transformers are less compositional and more disjunctive, which means that they use multiple diverse but smaller set of parts to achieve a confident prediction. Through further experiments, we pinpointed the choice of normalization to be especially important in the compositionality of a model, in that batch normalization leads to less compositionality while group and layer normalization lead to more. Finally, we also analyze the features shared by different backbones and plot a landscape of different models based on their feature-use similarity.
翻訳日:2024-04-10 05:46:40 公開日:2024-04-06
# 不確実なシステムにおける最悪のケース制御と学習のための近似情報状態

Approximate Information States for Worst-Case Control and Learning in Uncertain Systems ( http://arxiv.org/abs/2301.05089v2 )

ライセンス: Link先を確認
Aditya Dave, Nishanth Venkatesh, Andreas A. Malikopoulos, (参考訳) 本稿では,部分的に観察された状態を持つ不確実なシステムにおける離散時間決定問題について検討する。 システムに作用する制御不能な外乱が未知の分布を持つ有界集合の値を取る非確率モデルを考える。 本稿では、情報状態と近似情報状態の概念を用いて、そのような問題の意思決定のための一般的な枠組みを提案し、動的プログラム(DP)を通して最適な戦略を計算できる不確実な変数を特定する条件を提案する。 次に、これらの条件を緩和し、システム力学の知識を必要とせずに出力データから学習できる近似情報状態を定義する。 我々は、近似情報状態を用いて、有界な性能損失を持つ戦略をもたらすDPを定式化する。 最後に、数値的な例を用いて、制御および強化学習における結果の適用について説明する。

In this paper, we investigate discrete-time decision-making problems in uncertain systems with partially observed states. We consider a non-stochastic model, where uncontrolled disturbances acting on the system take values in bounded sets with unknown distributions. We present a general framework for decision-making in such problems by using the notion of the information state and approximate information state, and introduce conditions to identify an uncertain variable that can be used to compute an optimal strategy through a dynamic program (DP). Next, we relax these conditions and define approximate information states that can be learned from output data without knowledge of system dynamics. We use approximate information states to formulate a DP that yields a strategy with a bounded performance loss. Finally, we illustrate the application of our results in control and reinforcement learning using numerical examples.
翻訳日:2024-04-10 05:46:40 公開日:2024-04-06
# 対人攻撃で$\ell_0$を突破する確率的ロバスト性

Provable Robustness Against a Union of $\ell_0$ Adversarial Attacks ( http://arxiv.org/abs/2302.11628v4 )

ライセンス: Link先を確認
Zayd Hammoudeh, Daniel Lowd, (参考訳) スパースまたは$\ell_0$ 敵攻撃は、機能の未知の部分集合を任意に摂動する。 $\ell_0$のロバストネス分析は、機能の種類やスケールが異なる異種(タブラリ)データに特に適しています。 State-of-the-art $\ell_0$認証された防御はランダムな平滑化に基づいており、回避攻撃にのみ適用される。 本稿では,$\ell_0$の回避,バックドア,毒殺攻撃に対する認証された防御策として,機能分割アグリゲーション(FPA)を提案する。 FPAはアンサンブルを通じて強力な堅牢性を保証する。 最先端の$\ell_0$ディフェンスと比較して、FPAは3000${\times}$より高速で、中央値の堅牢性を保証する(例えば、CIFAR10では13ピクセル以上、MNISTでは12ピクセル以上、天気1では4機能以上、Amesでは3機能)。

Sparse or $\ell_0$ adversarial attacks arbitrarily perturb an unknown subset of the features. $\ell_0$ robustness analysis is particularly well-suited for heterogeneous (tabular) data where features have different types or scales. State-of-the-art $\ell_0$ certified defenses are based on randomized smoothing and apply to evasion attacks only. This paper proposes feature partition aggregation (FPA) -- a certified defense against the union of $\ell_0$ evasion, backdoor, and poisoning attacks. FPA generates its stronger robustness guarantees via an ensemble whose submodels are trained on disjoint feature sets. Compared to state-of-the-art $\ell_0$ defenses, FPA is up to 3,000${\times}$ faster and provides larger median robustness guarantees (e.g., median certificates of 13 pixels over 10 for CIFAR10, 12 pixels over 10 for MNIST, 4 features over 1 for Weather, and 3 features over 1 for Ames), meaning FPA provides the additional dimensions of robustness essentially for free.
翻訳日:2024-04-10 05:36:49 公開日:2024-04-06
# 心MRIによる肺動脈圧予測のためのテンソルベースマルチモーダル学習

Tensor-based Multimodal Learning for Prediction of Pulmonary Arterial Wedge Pressure from Cardiac MRI ( http://arxiv.org/abs/2303.07540v2 )

ライセンス: Link先を確認
Prasun C. Tripathi, Mohammod N. I. Suvon, Lawrence Schobs, Shuo Zhou, Samer Alabed, Andrew J. Swift, Haiping Lu, (参考訳) 心不全は重篤で生命を脅かす状態であり、左心室の圧力を上昇させる可能性がある。 肺動脈枝圧(PAWP)は左室の高圧を示す重要な代理マーカーである。 PAWPは右心臓カテーテル化(RHC)によって決定されるが、侵襲的な処置である。 非侵襲的な方法は、人口の多い高リスク患者を迅速に同定するのに有用である。 本研究では,マルチモーダル心磁共鳴画像(MRI)からPAWPを同定するテンソル学習ベースのパイプラインを開発する。 このパイプラインは高次元スキャンから空間的特徴と時間的特徴を抽出する。 品質管理には,病的不確実性に基づくビンニング戦略を取り入れ,質の悪いトレーニングサンプルを同定する。 本研究は,複数モーダルデータから,短軸・4軸の心MRI,電子健康記録などの特徴を統合することで,相補的情報を学習する。 PAWP推定のためのRHC手順を施行した1346ドルの被験者の大規模なコホートに関する実験的分析では、提案されたパイプラインは診断値があり、臨床実践におけるベースラインよりも大幅に改善された有望な性能が得られる($\Delta$AUC $=0.10$、$\Delta$Accuracy $=0.06$、$\Delta$MCC $=0.39$)。 判定曲線解析により,本手法の臨床的有用性をさらに確認する。

Heart failure is a serious and life-threatening condition that can lead to elevated pressure in the left ventricle. Pulmonary Arterial Wedge Pressure (PAWP) is an important surrogate marker indicating high pressure in the left ventricle. PAWP is determined by Right Heart Catheterization (RHC) but it is an invasive procedure. A non-invasive method is useful in quickly identifying high-risk patients from a large population. In this work, we develop a tensor learning-based pipeline for identifying PAWP from multimodal cardiac Magnetic Resonance Imaging (MRI). This pipeline extracts spatial and temporal features from high-dimensional scans. For quality control, we incorporate an epistemic uncertainty-based binning strategy to identify poor-quality training samples. To improve the performance, we learn complementary information by integrating features from multimodal data: cardiac MRI with short-axis and four-chamber views, and Electronic Health Records. The experimental analysis on a large cohort of $1346$ subjects who underwent the RHC procedure for PAWP estimation indicates that the proposed pipeline has a diagnostic value and can produce promising performance with significant improvement over the baseline in clinical practice (i.e., $\Delta$AUC $=0.10$, $\Delta$Accuracy $=0.06$, and $\Delta$MCC $=0.39$). The decision curve analysis further confirms the clinical utility of our method.
翻訳日:2024-04-10 05:36:49 公開日:2024-04-06
# NanoLM: スケールを越えた正確な損失予測による、拡張可能なLLM事前トレーニングベンチマーク

nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales ( http://arxiv.org/abs/2304.06875v4 )

ライセンス: Link先を確認
Yiqun Yao, Siqi fan, Xiusheng Huang, Xuezhi Fang, Xiang Li, Ziyi Ni, Xin Jiang, Xuying Meng, Peng Han, Shuo Shang, Kang Liu, Aixin Sun, Yequan Wang, (参考訳) 言語モデルが拡大するにつれて、小さなモデルの結論が簡単に大きなモデルに変換されないため、研究のアイデアを検証するのにますますコストがかかる。 可能な解決策は、大規模なモデルのメトリクスをトレーニングせずに正確に予測する汎用システムを確立することである。 既存のスケーリング法則は、最大モデルのハイパーパラメーター探索を必要とし、予測能力を制限する。 本稿では、最大更新パラメトリゼーション({\mu}P)により、ハイパーパラメータ空間の共通損失流域に近接するスケーリング法則を正確に適合させることができるという観測に基づいて、事前学習損失を予測するためのアプローチ(すなわち {\mu}Scaling)を提案する。 {\mu} Scalingでは、より小さなモデルのみをトレーニングすることで、さまざまなモデル設計を大規模に比較することができる。 さらに,この新たな研究パラダイムを促進する,安価なLCM事前学習ベンチマークであるnanoLMを紹介する。 トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。 NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。 私たちはまた、私たちのベンチマークが学術コミュニティと業界の間の橋渡しになることを期待しています。 Code for {\mu} Scalingはhttps://github.com/cofe-ai/Mu-scaling.comで公開されている。 NanoLLMのコードは後日公開される予定だ。

As language models scale up, it becomes increasingly expensive to verify research ideas because conclusions on small models do not trivially transfer to large ones. A possible solution is to establish a generic system that accurately predicts certain metrics for large models without training them. Existing scaling laws require hyperparameter search on the largest models, limiting their predicative capability. In this paper, we present an approach (namely {\mu}Scaling) to predict the pre-training loss, based on our observations that Maximal Update Parametrization ({\mu}P) enables accurate fitting of scaling laws close to common loss basins in hyperparameter space. With {\mu}Scaling, different model designs can be compared on large scales by training only their smaller counterparts. Further, we introduce nanoLM: an affordable LLM pre-training benchmark that facilitates this new research paradigm. With around 14% of the one-time pre-training cost, we can accurately forecast the loss for models up to 52B. Our goal with nanoLM is to empower researchers with limited resources to reach meaningful conclusions on large models. We also aspire for our benchmark to serve as a bridge between the academic community and the industry. Code for {\mu}Scaling is available at https://github.com/cofe-ai/Mu-scaling. Code for nanoLLM will be available later.
翻訳日:2024-04-10 05:36:49 公開日:2024-04-06
# 2倍高速言語モデル事前学習のためのマスク構造成長

Masked Structural Growth for 2x Faster Language Model Pre-training ( http://arxiv.org/abs/2305.02869v3 )

ライセンス: Link先を確認
Yiqun Yao, Zheng Zhang, Jing Li, Yequan Wang, (参考訳) 大規模言語モデルの事前学習を加速することは,本研究において重要な課題である。 本稿では,小さなトランスフォーマー構造から大規模構造へと徐々に成長し,事前学習の高速化に着目する。 進行成長に関連する2つの主要な研究課題は、最適な成長スケジュールを決定することと、効率的な成長オペレーターを設計することである。 成長スケジュールの観点では、個々の次元がスケジュールの効率に与える影響は、既存の作業によって過小評価される。 成長演算子に関して、既存の手法は知識を継承し、非制限機能のみを達成するために新しい重み付けの初期化に依存しており、訓練力学のさらなる改善を制限している。 これらの課題に対処するため、我々はマスケッド構造成長(MSG)を提案する。 一 すべての可能な次元及び成長スケジュール (ii) 新しい重みの初期化とは無関係な厳密な関数保存型成長作用素。 実験により、MSGは関連する作業よりも大幅に高速であることが示され、異なるタイプの言語モデルの事前学習において最大2.2倍のスピードアップを達成すると同時に、同等またはより優れたダウンストリーム性能を維持している。 コードはhttps://github.com/cofe-ai/MSG.comで公開されている。

Accelerating large language model pre-training is a critical issue in present research. In this paper, we focus on speeding up pre-training by progressively growing from a small Transformer structure to a large one. There are two main research problems associated with progressive growth: determining the optimal growth schedule, and designing efficient growth operators. In terms of growth schedule, the impact of each single dimension on a schedule's efficiency is under-explored by existing work. Regarding the growth operators, existing methods rely on the initialization of new weights to inherit knowledge, and achieve only non-strict function preservation, limiting further improvements on training dynamics. To address these issues, we propose Masked Structural Growth (MSG), including (i) growth schedules involving all possible dimensions and (ii) strictly function-preserving growth operators that is independent of the initialization of new weights. Experiments show that MSG is significantly faster than related work: we achieve up to 2.2x speedup in pre-training different types of language models while maintaining comparable or better downstream performances. Code is publicly available at https://github.com/cofe-ai/MSG.
翻訳日:2024-04-10 05:27:02 公開日:2024-04-06
# 拡散オーダの最大近似推定のための改良手法

Improved Techniques for Maximum Likelihood Estimation for Diffusion ODEs ( http://arxiv.org/abs/2305.03935v4 )

ライセンス: Link先を確認
Kaiwen Zheng, Cheng Lu, Jianfei Chen, Jun Zhu, (参考訳) 拡散モデルは様々な領域で優れた性能を示した。 拡散モデルの確率フロー常微分方程式(ODE)は連続正規化流(CNF)の特別な場合であり、決定論的推論と正確な精度評価を可能にする。 しかし、拡散ODEによる確率推定結果は、まだ最先端の確率ベース生成モデルとはかけ離れている。 そこで本研究では,実験と評価の両面から,拡散型ODEの最大推定精度を向上する手法を提案する。 トレーニングのために,速度パラメータ化を提案し,より高速な収束のための分散低減手法を探索する。 また,ミスバウンドな高次流れマッチングを微調整の目的とし,ODEの精度を向上し,軌道の平滑化を図る。 評価のために,拡散 ODE に存在する訓練・評価のギャップを埋めるために,新しい訓練自由トラクト正規化法を提案する。 CIFAR-10では2.56、ImageNet-32では3.43/3.69、CIFAR-10では2.42である。 コードは \url{https://github.com/thu-ml/i-DODE} で入手できる。

Diffusion models have exhibited excellent performance in various domains. The probability flow ordinary differential equation (ODE) of diffusion models (i.e., diffusion ODEs) is a particular case of continuous normalizing flows (CNFs), which enables deterministic inference and exact likelihood evaluation. However, the likelihood estimation results by diffusion ODEs are still far from those of the state-of-the-art likelihood-based generative models. In this work, we propose several improved techniques for maximum likelihood estimation for diffusion ODEs, including both training and evaluation perspectives. For training, we propose velocity parameterization and explore variance reduction techniques for faster convergence. We also derive an error-bounded high-order flow matching objective for finetuning, which improves the ODE likelihood and smooths its trajectory. For evaluation, we propose a novel training-free truncated-normal dequantization to fill the training-evaluation gap commonly existing in diffusion ODEs. Building upon these techniques, we achieve state-of-the-art likelihood estimation results on image datasets (2.56 on CIFAR-10, 3.43/3.69 on ImageNet-32) without variational dequantization or data augmentation, and 2.42 on CIFAR-10 with data augmentation. Code is available at \url{https://github.com/thu-ml/i-DODE}.
翻訳日:2024-04-10 05:27:02 公開日:2024-04-06
# Neurocomparatives:Neuro-Symbolic Distillation of Comparison Knowledge

NeuroComparatives: Neuro-Symbolic Distillation of Comparative Knowledge ( http://arxiv.org/abs/2305.04978v3 )

ライセンス: Link先を確認
Phillip Howard, Junlin Wang, Vasudev Lal, Gadi Singer, Yejin Choi, Swabha Swayamdipta, (参考訳) 比較知識(例えば、鋼はスチロールフォームよりも強く重い)は、我々の世界の知識の重要な構成要素であるが、以前の文献で研究されている。 本稿では,言語モデルの知識能力の劇的な向上を,大規模比較知識ベースに抽出する。 このような比較知識の取得の容易さは、GPT-4のような極端なスケールのモデルよりもはるかに高いが、GPT-2のようなかなり小さく弱いモデルに比べれば、最も強力なモデルでさえ誤りを犯すことを免れるわけではない。 異なるスケールのモデルが、有効で多様な比較知識を生成できる範囲は、どの程度あるのか? 本稿では,GPT-variants や LLaMA などの言語モデルから過剰に生成した知識を比較蒸留するための新しいフレームワークであるNeuroComparativesを紹介し,その後に生成した知識を厳密にフィルタリングする。 我々のフレームワークは、日常のオブジェクト間の比較知識を取得し、最大8.8Mのコーパスを1.74M以上のエンティティペアで生成します。 さらに、人間による評価では、NeuroComparativesは既存のリソースよりも有効性(最大32%の絶対的改善)が高いことが示されている。 買収したNeuroComparativesは、5つの下流タスクのパフォーマンス改善につながります。 より小さなモデルのニューロシンボリックな操作は、知識蒸留のための極規模の言語モデルを促進する、現在支配的な実践に相補的な利点をもたらす。

Comparative knowledge (e.g., steel is stronger and heavier than styrofoam) is an essential component of our world knowledge, yet understudied in prior literature. In this paper, we harvest the dramatic improvements in knowledge capabilities of language models into a large-scale comparative knowledge base. While the ease of acquisition of such comparative knowledge is much higher from extreme-scale models like GPT-4, compared to their considerably smaller and weaker counterparts such as GPT-2, not even the most powerful models are exempt from making errors. We thus ask: to what extent are models at different scales able to generate valid and diverse comparative knowledge? We introduce NeuroComparatives, a novel framework for comparative knowledge distillation overgenerated from language models such as GPT-variants and LLaMA, followed by stringent filtering of the generated knowledge. Our framework acquires comparative knowledge between everyday objects, producing a corpus of up to 8.8M comparisons over 1.74M entity pairs - 10X larger and 30% more diverse than existing resources. Moreover, human evaluations show that NeuroComparatives outperform existing resources in terms of validity (up to 32% absolute improvement). Our acquired NeuroComparatives leads to performance improvements on five downstream tasks. We find that neuro-symbolic manipulation of smaller models offers complementary benefits to the currently dominant practice of prompting extreme-scale language models for knowledge distillation.
翻訳日:2024-04-10 05:27:02 公開日:2024-04-06
# PCF-GAN:経路空間上の測度の特徴関数による逐次データ生成

PCF-GAN: generating sequential data via the characteristic function of measures on the path space ( http://arxiv.org/abs/2305.12511v2 )

ライセンス: Link先を確認
Hang Lou, Siran Li, Hao Ni, (参考訳) 時系列データによる連立確率分布の時間的依存性の把握が困難であるため, GANを用いた高忠実度時系列データの生成は依然として困難な課題である。 この目標に向けて重要なステップは、時系列分布を区別する効果的な識別器の開発である。 そこで本研究では,経路特性関数(PCF)を時系列分布の原理表現として組み込んだ新しいGANであるPCF-GANを提案する。 一方,PCF-GANの訓練の安定性と実現性を保証するため,その特性,境界性,ジェネレータパラメータに対する微分可能性,および弱い連続性を証明し,PCF距離の理論的基礎を確立する。 一方,PCFの識別能力を高め,学習効率を向上するために,PCFの効率的な初期化と最適化方式を設計する。 複雑な時系列生成機能をさらに強化するため,PCF-GANへの逐次埋め込みによる自動エンコーダ構造を統合し,さらなる再構成機能を実現する。 各種データセットに対する大規模な数値実験により,PCF-GANは,生成品質と復元品質の両方において,最先端のベースラインよりも一貫して優れた性能を示した。 コードはhttps://github.com/DeepIntoStreams/PCF-GANで入手できる。

Generating high-fidelity time series data using generative adversarial networks (GANs) remains a challenging task, as it is difficult to capture the temporal dependence of joint probability distributions induced by time-series data. Towards this goal, a key step is the development of an effective discriminator to distinguish between time series distributions. We propose the so-called PCF-GAN, a novel GAN that incorporates the path characteristic function (PCF) as the principled representation of time series distribution into the discriminator to enhance its generative performance. On the one hand, we establish theoretical foundations of the PCF distance by proving its characteristicity, boundedness, differentiability with respect to generator parameters, and weak continuity, which ensure the stability and feasibility of training the PCF-GAN. On the other hand, we design efficient initialisation and optimisation schemes for PCFs to strengthen the discriminative power and accelerate training efficiency. To further boost the capabilities of complex time series generation, we integrate the auto-encoder structure via sequential embedding into the PCF-GAN, which provides additional reconstruction functionality. Extensive numerical experiments on various datasets demonstrate the consistently superior performance of PCF-GAN over state-of-the-art baselines, in both generation and reconstruction quality. Code is available at https://github.com/DeepIntoStreams/PCF-GAN.
翻訳日:2024-04-10 05:27:02 公開日:2024-04-06
# 超伝導共振器における水素結晶の消散効果

Hydrogen crystals reduce dissipation in superconducting resonators ( http://arxiv.org/abs/2306.04112v2 )

ライセンス: Link先を確認
Francesco Valenti, Andrew N. Kanagin, Andreas Angerer, Luiza Buimaga-Iarinca, Cristian Morari, Jörg Schmiedmayer, Ioan M. Pop, (参考訳) グラニュラルアルミニウムを用いた高インピーダンス超伝導共振器の内部品質は, 固体パラ水素分子結晶のマイクロメートルフィルムでコーティングすることで向上できることを示した。 結晶共振器界面における成層テラヘルツ放射の吸収とそれに続くエネルギーの消散により, 平均$\approx 8\%の消散効果が減少し, 対の破断ギャップの下のフォノンの形での消散効果が認められた。 以上の結果から,超伝導共振器上の真空誘電体を交換することは期待に反して有益であることが確認された。 さらに,10^5$の範囲における内部品質係数のレベルでは,水素結晶に余分な損失は生じず,超伝導薄膜デバイスをハイブリッド量子アーキテクチャに埋め込むことが期待できる。

We show that the internal quality factors of high impedance superconducting resonators made of granular aluminum can be improved by coating them with micrometric films of solid para-hydrogen molecular crystals. We attribute the average measured $\approx 8\%$ reduction in dissipation to absorption of stray terahertz radiation at the crystal-resonator interface and the subsequent dissipation of its energy in the form of phonons below the pair-breaking gap. Our results prove that, contrary to expectations, replacing the vacuum dielectric atop a superconducting resonator can be beneficial, thanks to the added protection against Cooper pair-braking terahertz radiation. Moreover, at the level of internal quality factors in the $10^5$ range, the hydrogen crystal does not introduce additional losses, which is promising for embedding impurities to couple to superconducting thin-film devices in hybrid quantum architectures.
翻訳日:2024-04-10 05:17:18 公開日:2024-04-06
# 論理学はウィグナーの友人(と彼らの友人)と出会う

Logic meets Wigner's Friend (and their Friends) ( http://arxiv.org/abs/2307.01713v2 )

ライセンス: Link先を確認
Alexandru Baltag, Sonja Smets, (参考訳) 我々は、Wigner's Friend thought-experimentと、Frauchiger-Renner(FR) Paradox(英語版)など、そのより最近の変種と拡張について、新たに検討する。 これらのシナリオにおける状態割り当ての多重性に関する正しい認識論的解釈はどのようなものか? どの条件下でも、従来の量子力学と互換性のある量子状態記述に古典的なオブザーバを含めることができるのか? あるシステムが別のバックグラウンドオブザーバの観点から、追加の"オブザーバ"として認められる条件はどのようなものか? エージェント間の「知識伝達」を可能にする)マルチエージェント・エピステミック論理の標準的な公理は、量子物理学的な観測者にいつ適用できるのか? 論文の最後の部分では、これらの質問に対する新しい回答を提案し、この回答の特定の形式的な実装をスケッチし、Wigner Friend-typeパラドックスの原理的な解を得るためにそれを適用する。

We take a fresh look at Wigner's Friend thought-experiment and some of its more recent variants and extensions, such as the Frauchiger-Renner (FR) Paradox. We discuss various solutions proposed in the literature, focusing on a few questions: What is the correct epistemic interpretation of the multiplicity of state assignments in these scenarios? Under which conditions can one include classical observers into the quantum state descriptions, in a way that is still compatible with traditional Quantum Mechanics? Under which conditions can one system be admitted as an additional 'observer' from the perspective of another background observer? When can the standard axioms of multi-agent Epistemic Logic (that allow "knowledge transfer" between agents) be applied to quantum-physical observers? In the last part of the paper, we propose a new answer to these questions, sketch a particular formal implementation of this answer, and apply it to obtain a principled solution to Wigner Friend-type paradoxes.
翻訳日:2024-04-10 05:07:30 公開日:2024-04-06
# 拡張Jaynes-Cummingsモデルにおける量子相転移に対する効果的なハミルトン的アプローチ

Effective Hamiltonian approach to the quantum phase transitions in the extended Jaynes-Cummings model ( http://arxiv.org/abs/2307.13518v3 )

ライセンス: Link先を確認
H. T. Cui, Y. A. Yan, M. Qin, X. X. Yi, (参考訳) リウヴィリアヌスに基づく散逸性量子系の相転移の研究は、系-環境結合が強いとき、時間-局所マスター方程式を構築するのが困難であるためにしばしば妨げられる。 この問題に対処するために、環境に対する複雑な離散化近似を提案し、無限個のボソンモードを持つ拡張Jaynes-Cummingモデルにおける量子相転移を研究する。 このアプローチは、スピンの力学をシミュレートするために使用できる非エルミート有効ハミルトニアンを与える。 この有効ハミルトニアンの基底状態は、単励起部分空間におけるスピンダイナミクスを決定する。 エネルギーギャップの開度とスピンの自由度における励起の最大個体数に依存すると、スピンの高速崩壊、局所化、伸張ダイナミクスの3つの異なる位相が特定できる。 このアプローチは複数の励起にまで拡張することができ、同様のダイナミクスが二重励起部分空間で発見され、単一励起相の堅牢性を示している。

The study of phase transitions in dissipative quantum systems based on the Liouvillian is often hindered by the difficulty of constructing a time-local master equation when the system-environment coupling is strong. To address this issue, the complex discretization approximation for the environment is proposed to study the quantum phase transition in the extended Jaynes-Cumming model with an infinite number of boson modes. This approach yields a non-Hermitian effective Hamiltonian that can be used to simulate the dynamics of the spin. It is found that the ground state of this effective Hamiltonian determines the spin dynamics in the single-excitation subspace. Depending on the opening of the energy gap and the maximum population of excitations on the spin degree of freedom, three distinct phases can be identified: fast decaying, localized, and stretched dynamics of the spin. This approach can be extended to multiple excitations, and similar dynamics were found in the double-excitation subspace, indicating the robustness of the single-excitation phase.
翻訳日:2024-04-10 04:57:43 公開日:2024-04-06
# 大規模データ可視化のための適応配置多重グリッドシーン表現ネットワーク

Adaptively Placed Multi-Grid Scene Representation Networks for Large-Scale Data Visualization ( http://arxiv.org/abs/2308.02494v3 )

ライセンス: Link先を確認
Skylar Wolfgang Wurster, Tianyu Xiong, Han-Wei Shen, Hanqi Guo, Tom Peterka, (参考訳) 科学データの圧縮と可視化のためにSRN(Scene representation network)が最近提案されている。 しかし、現在最先端のSRNは、科学データに見られる複雑な特徴に利用可能なネットワークパラメータの割り当てを適応させておらず、再構築品質の低下につながっている。 適応的に配置されたマルチグリッドSRN(APMGSRN)によるこの欠点に対処し、マルチGPUシステム上での並列トレーニングを高速化するためのドメイン分解トレーニングと推論手法を提案する。 また、PyTorchベースのSRNでプラグインとプレイのレンダリングを可能にする、オープンソースのニューラルボリュームレンダリングアプリケーションもリリースしています。 提案アーキテクチャでは,複数の空間適応型特徴格子を用いて,領域内に配置すべき位置を学習し,エラー量の多いニューラルネットワーク資源を動的に割り当て,高価なオクツリー精製,プルーニング,従来の適応モデルのようなトラバーサルを必要とせず,科学的データに対するSRNの最先端の再構築精度を向上させる。 大規模データを表すドメイン分解アプローチでは、GPUメモリに収まるには大きすぎるボリュームのアウト・オブ・コアソリューションに必要なオーバーヘッドを回避しつつ、トレーニング時間を削減するために、ボリュームの別々のブロック上に一連のAPMGSRNを並列にトレーニングします。 トレーニング後、軽量なSRNはオープンソースレンダラーのリアルタイムなニューラルボリュームレンダリングに使用され、任意のビュー角と転送関数を探索することができる。 この論文のコピー、すべてのコード、我々の実験で使われたすべてのモデル、およびすべての補足材料とビデオはhttps://github.com/skywolf829/APMGSRNで入手できる。

Scene representation networks (SRNs) have been recently proposed for compression and visualization of scientific data. However, state-of-the-art SRNs do not adapt the allocation of available network parameters to the complex features found in scientific data, leading to a loss in reconstruction quality. We address this shortcoming with an adaptively placed multi-grid SRN (APMGSRN) and propose a domain decomposition training and inference technique for accelerated parallel training on multi-GPU systems. We also release an open-source neural volume rendering application that allows plug-and-play rendering with any PyTorch-based SRN. Our proposed APMGSRN architecture uses multiple spatially adaptive feature grids that learn where to be placed within the domain to dynamically allocate more neural network resources where error is high in the volume, improving state-of-the-art reconstruction accuracy of SRNs for scientific data without requiring expensive octree refining, pruning, and traversal like previous adaptive models. In our domain decomposition approach for representing large-scale data, we train an set of APMGSRNs in parallel on separate bricks of the volume to reduce training time while avoiding overhead necessary for an out-of-core solution for volumes too large to fit in GPU memory. After training, the lightweight SRNs are used for realtime neural volume rendering in our open-source renderer, where arbitrary view angles and transfer functions can be explored. A copy of this paper, all code, all models used in our experiments, and all supplemental materials and videos are available at https://github.com/skywolf829/APMGSRN.
翻訳日:2024-04-10 04:57:43 公開日:2024-04-06
# 特徴強化型物理インフォームドニューラルネットワークによる収束速度向上-境界条件を高速収束のための優先知識として活用する

Enhancing Convergence Speed with Feature-Enforcing Physics-Informed Neural Networks: Utilizing Boundary Conditions as Prior Knowledge for Faster Convergence ( http://arxiv.org/abs/2308.08873v4 )

ライセンス: Link先を確認
Mahyar Jahaninasab, Mohamad Ali Bijarchi, (参考訳) 本研究では,ニューラルネットワークの初期重み付け状態,ドメイン間境界点比,損失重み付け係数の3因子に対処する,バニラ物理情報ニューラルネットワークス(PINN)の高速化トレーニング手法を提案する。 新たな2段階学習法を提案する。 初期段階では、境界条件と偏微分方程式項のサブセットを用いて一意な損失関数を生成する。 さらに,各ニューラルネットワークの初期重み状態に応じて,初期化時の分散を減少させる前処理手順を導入し,領域点を選択する。 第2フェーズはバニラ-PINN訓練に似ているが、ランダムな重量の一部は第1フェーズからの重量に置き換えられている。 これは、ニューラルネットワークの構造が境界条件を優先するように設計され、その後全体の収束に影響を与えることを意味する。 3つのベンチマークが利用されており、シリンダー上の2次元流れ、入口速度決定の逆問題、バーガー方程式である。 ニューラルネットワークの構造に第1のトレーニングフェーズで生成された重みを組み込むことで、不均衡因子の影響を中和することがわかった。 例えば、第1のベンチマークでは、当社のプロセスの結果、トレーニングの第2フェーズは幅広い比率でバランスが取れており、重量の初期状態の影響を受けない一方で、Vanilla-PINNはほとんどのケースで収束しなかった。 最後に、初期トレーニングプロセスでは、損失関数のバランスをとるためにハイパーパラメータチューニングが不要になるだけでなく、速度の面ではVanilla-PINNよりも優れています。

This study introduces an accelerated training method for Vanilla Physics-Informed-Neural-Networks (PINN) addressing three factors that imbalance the loss function: initial weight state of a neural network, domain to boundary points ratio, and loss weighting factor. We propose a novel two-stage training method. During the initial stage, we create a unique loss function using a subset of boundary conditions and partial differential equation terms. Furthermore, we introduce preprocessing procedures that aim to decrease the variance during initialization and choose domain points according to the initial weight state of various neural networks. The second phase resembles Vanilla-PINN training, but a portion of the random weights are substituted with weights from the first phase. This implies that the neural network's structure is designed to prioritize the boundary conditions, subsequently affecting the overall convergence. Three benchmarks are utilized: two-dimensional flow over a cylinder, an inverse problem of inlet velocity determination, and the Burger equation. It is found that incorporating weights generated in the first training phase into the structure of a neural network neutralizes the effects of imbalance factors. For instance, in the first benchmark, as a result of our process, the second phase of training is balanced across a wide range of ratios and is not affected by the initial state of weights, while the Vanilla-PINN failed to converge in most cases. Lastly, the initial training process not only eliminates the need for hyperparameter tuning to balance the loss function, but it also outperforms the Vanilla-PINN in terms of speed.
翻訳日:2024-04-10 04:47:47 公開日:2024-04-06
# 量から品質へ:インストラクションチューニングのための自己ガイドデータ選択によるLCM性能向上

From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning ( http://arxiv.org/abs/2308.12032v5 )

ライセンス: Link先を確認
Ming Li, Yong Zhang, Zhitao Li, Jiuhai Chen, Lichang Chen, Ning Cheng, Jianzong Wang, Tianyi Zhou, Jing Xiao, (参考訳) 大言語モデル(LLM)の領域では、命令データの品質と量とのバランスが焦点となる。 これを認識し、オープンソースデータセットからサクラサンプルを自律的に識別し、選択するための自己誘導手法を導入し、手動のキュレーションを効果的に最小化し、LLMのチューニングを指導するための潜在的コストを抑える。 我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。 IFDの適用により、桜のサンプルをピンポイントで特定することができ、モデルの訓練効率が著しく向上する。 AlpacaやWizardLMのようなデータセットに対する実証的な検証は、私たちの発見を支えています。 この自己誘導チェリーピッキングとIFDメトリックの合成は、LLMの命令チューニングにおける革新的な飛躍を意味し、効率性とリソースを意識した進歩を約束する。 コード、データ、モデルは https://github.com/tianyi-lab/Cherry_LLM.com で入手できる。

In the realm of Large Language Models (LLMs), the balance between instruction data quality and quantity is a focal point. Recognizing this, we introduce a self-guided methodology for LLMs to autonomously discern and select cherry samples from open-source datasets, effectively minimizing manual curation and potential cost for instruction tuning an LLM. Our key innovation, the Instruction-Following Difficulty (IFD) metric, emerges as a pivotal metric to identify discrepancies between a model's expected responses and its intrinsic generation capability. Through the application of IFD, cherry samples can be pinpointed, leading to a marked uptick in model training efficiency. Empirical validations on datasets like Alpaca and WizardLM underpin our findings; with a mere $10\%$ of original data input, our strategy showcases improved results. This synthesis of self-guided cherry-picking and the IFD metric signifies a transformative leap in the instruction tuning of LLMs, promising both efficiency and resource-conscious advancements. Codes, data, and models are available: https://github.com/tianyi-lab/Cherry_LLM
翻訳日:2024-04-10 04:47:47 公開日:2024-04-06
# ロバスト逆強化学習へのベイズ的アプローチ

A Bayesian Approach to Robust Inverse Reinforcement Learning ( http://arxiv.org/abs/2309.08571v2 )

ライセンス: Link先を確認
Ran Wei, Siliang Zeng, Chenliang Li, Alfredo Garcia, Anthony McDonald, Mingyi Hong, (参考訳) 我々は、オフラインモデルに基づく逆強化学習(IRL)に対するベイズ的アプローチを検討する。 提案フレームワークは,専門家の報酬関数と環境力学の主観的モデルとを同時推定することにより,既存のオフラインモデルベースIRLアプローチとは異なる。 本研究では, 環境のエキスパートモデルが, 高次元設定における専門家の報酬と主観的ダイナミクスを推定するための効率的なアルゴリズムを開発するために, 環境のエキスパートモデルがどの程度正確であるかをパラメータ化する, 事前分布のクラスを利用する。 本分析は,専門家が環境の高精度なモデルを持つと信じている場合,評価された政策が堅牢な性能を示すという新たな知見を提示する。 我々は、この観測を MuJoCo 環境で検証し、我々のアルゴリズムが最先端のオフラインIRLアルゴリズムより優れていることを示す。

We consider a Bayesian approach to offline model-based inverse reinforcement learning (IRL). The proposed framework differs from existing offline model-based IRL approaches by performing simultaneous estimation of the expert's reward function and subjective model of environment dynamics. We make use of a class of prior distributions which parameterizes how accurate the expert's model of the environment is to develop efficient algorithms to estimate the expert's reward and subjective dynamics in high-dimensional settings. Our analysis reveals a novel insight that the estimated policy exhibits robust performance when the expert is believed (a priori) to have a highly accurate model of the environment. We verify this observation in the MuJoCo environments and show that our algorithms outperform state-of-the-art offline IRL algorithms.
翻訳日:2024-04-10 04:37:55 公開日:2024-04-06
# モデルベースロールアウトによる階層型強化学習におけるガイド付き協調

Guided Cooperation in Hierarchical Reinforcement Learning via Model-based Rollout ( http://arxiv.org/abs/2309.13508v2 )

ライセンス: Link先を確認
Haoran Wang, Zeshen Tang, Leya Yang, Yaoru Sun, Fang Wang, Siyu Zhang, Yeming Chen, (参考訳) 目標条件付き階層型強化学習(HRL)は、時間的抽象を通して、複雑な長距離強化学習(RL)タスクを効果的に探索するための有望なアプローチを示す。 実証的には、階層的なシステムにおいて、階層間コミュニケーションと調整が強化され、より安定的で堅牢な政策改善がもたらされる。 しかし、既存の目標条件付きHRLアルゴリズムのほとんどは、階層間協力を無視したサブゴール発見に重点を置いている。 本稿では,階層間情報同期と協調をフォワードダイナミクスを利用して橋渡しすることを目的とした,モデルベースロールアウト(GCMR)による誘導協調という目標条件付きHRLフレームワークを提案する。 第一に、GCMRはモデルベースロールアウトによるオフポリケーション補正における状態遷移誤差を軽減し、サンプル効率を向上する。 第二に、目に見えないサブゴールや状態による破壊を防止するために、モデル推論上界を持つ勾配ペナルティを用いて低レベルのQ関数勾配を制約し、より安定した行動政策を効果的に探索する。 第3に,下層政策の指針として,高層批判を用いた一段階のロールアウト型計画を提案する。 具体的には,より高レベルな批判関数を用いて下層政策の将来状態の値を推定し,局所的な落とし穴を避けるために,グローバルなタスク情報を下方へ送信する。 GCMRにおけるこれらの3つの重要な構成要素は、階層間協力を著しく促進することが期待されている。 実験結果から,提案したGCMRフレームワークをHIGLのアンタングル変種,すなわちACLGに組み込むことで,各種ベースラインよりも安定かつ堅牢な政策改善を実現し,従来の最先端アルゴリズムを著しく上回ることを示す。

Goal-conditioned hierarchical reinforcement learning (HRL) presents a promising approach for enabling effective exploration in complex, long-horizon reinforcement learning (RL) tasks through temporal abstraction. Empirically, heightened inter-level communication and coordination can induce more stable and robust policy improvement in hierarchical systems. Yet, most existing goal-conditioned HRL algorithms have primarily focused on the subgoal discovery, neglecting inter-level cooperation. Here, we propose a goal-conditioned HRL framework named Guided Cooperation via Model-based Rollout (GCMR), aiming to bridge inter-layer information synchronization and cooperation by exploiting forward dynamics. Firstly, the GCMR mitigates the state-transition error within off-policy correction via model-based rollout, thereby enhancing sample efficiency. Secondly, to prevent disruption by the unseen subgoals and states, lower-level Q-function gradients are constrained using a gradient penalty with a model-inferred upper bound, leading to a more stable behavioral policy conducive to effective exploration. Thirdly, we propose a one-step rollout-based planning, using higher-level critics to guide the lower-level policy. Specifically, we estimate the value of future states of the lower-level policy using the higher-level critic function, thereby transmitting global task information downwards to avoid local pitfalls. These three critical components in GCMR are expected to facilitate inter-level cooperation significantly. Experimental results demonstrate that incorporating the proposed GCMR framework with a disentangled variant of HIGL, namely ACLG, yields more stable and robust policy improvement compared to various baselines and significantly outperforms previous state-of-the-art algorithms.
翻訳日:2024-04-10 04:37:55 公開日:2024-04-06
# Red Teaming Game: レッドチーム言語モデルのためのゲーム理論フレームワーク

Red Teaming Game: A Game-Theoretic Framework for Red Teaming Language Models ( http://arxiv.org/abs/2310.00322v4 )

ライセンス: Link先を確認
Chengdong Ma, Ziran Yang, Minquan Gao, Hai Ci, Jun Gao, Xuehai Pan, Yaodong Yang, (参考訳) デプロイ可能な大規模言語モデル(LLM)は、有用性と無害性の基準に従わなければならない。 赤いチームのテクニックは、この基準に対する重要な方法です。 既存の作業は、手動のレッドチーム設計と、脆弱性検出と最適化のためのヒューリスティックな対抗策にのみ依存している。 これらの手法は厳密な数学的定式化を欠き、定量化尺度における多様な攻撃戦略の探索と収束保証の下でのLLMの最適化を制限している。 本稿では,手動アノテーションのない一般的なゲーム理論フレームワークであるRed-teaming Game(RTG)を提案する。 RTGは、レッドチーム言語モデル(RLM)とブルーチーム言語モデル(BLM)のマルチターン攻撃と防御相互作用を分析するように設計されている。 RTG内では,意味空間の多様性を指標とした Gamified Red-teaming Solver (GRTS) を提案する。 GRTSはメタゲーム解析によりRTGをナッシュ平衡へ向けた自動レッドチーム化技術であり、理論的に保証された RLM と BLM の最適化方向に対応する。 RLMによるマルチターン攻撃の実証的な結果から、GRTSは様々な攻撃戦略を自律的に発見し、LLMのセキュリティを効果的に改善し、既存のヒューリスティックなレッドチーム設計よりも優れていた。 全体として、RTGはレッドチームタスクの基礎となるフレームワークを確立し、アライメントのための新しいスケーラブルな監視技術を構築した。

Deployable Large Language Models (LLMs) must conform to the criterion of helpfulness and harmlessness, thereby achieving consistency between LLMs outputs and human values. Red-teaming techniques constitute a critical way towards this criterion. Existing work rely solely on manual red team designs and heuristic adversarial prompts for vulnerability detection and optimization. These approaches lack rigorous mathematical formulation, thus limiting the exploration of diverse attack strategy within quantifiable measure and optimization of LLMs under convergence guarantees. In this paper, we present Red-teaming Game (RTG), a general game-theoretic framework without manual annotation. RTG is designed for analyzing the multi-turn attack and defense interactions between Red-team language Models (RLMs) and Blue-team Language Model (BLM). Within the RTG, we propose Gamified Red-teaming Solver (GRTS) with diversity measure of the semantic space. GRTS is an automated red teaming technique to solve RTG towards Nash equilibrium through meta-game analysis, which corresponds to the theoretically guaranteed optimization direction of both RLMs and BLM. Empirical results in multi-turn attacks with RLMs show that GRTS autonomously discovered diverse attack strategies and effectively improved security of LLMs, outperforming existing heuristic red-team designs. Overall, RTG has established a foundational framework for red teaming tasks and constructed a new scalable oversight technique for alignment.
翻訳日:2024-04-10 04:28:07 公開日:2024-04-06
# 大規模言語モデルのためのパーソナリティの編集

Editing Personality for Large Language Models ( http://arxiv.org/abs/2310.02168v3 )

ライセンス: Link先を確認
Shengyu Mao, Xiaohan Wang, Mengru Wang, Yong Jiang, Pengjun Xie, Fei Huang, Ningyu Zhang, (参考訳) 本稿では,Large Language Models (LLMs) の性格特性の編集に焦点をあてた革新的なタスクを紹介する。 この課題は,個々人の人格が表現された意見の形で現れることが多いため,特定の話題に対する意見関連質問に対するモデルの反応を調整し,異なる人格特性を示す。 具体的には、この課題に対処するために、新しいベンチマークデータセットPersonalityEditを構築します。 社会心理学の理論に基づいて、我々は、我々のベンチマークの基礎として、神経症、外転、不可避性の3つの代表的特徴を抽出した。 そして、GPT-4を用いてデータを収集し、特定のトピックに適合するだけでなく、ターゲットの性格特性を具現化する応答を生成する。 様々なベースラインを含む包括的実験を行い,LLMにおける個性行動の表現について議論する。 興味をそそる発見は,提案課題の潜在的な課題を解明し,いくつかの課題を浮き彫りにした。 私たちはNLPコミュニティに洞察を得られることを期待しています。 コードとデータセットはhttps://github.com/zjunlp/EasyEdit.comで入手できる。

This paper introduces an innovative task focused on editing the personality traits of Large Language Models (LLMs). This task seeks to adjust the models' responses to opinion-related questions on specified topics since an individual's personality often manifests in the form of their expressed opinions, thereby showcasing different personality traits. Specifically, we construct a new benchmark dataset PersonalityEdit to address this task. Drawing on the theory in Social Psychology, we isolate three representative traits, namely Neuroticism, Extraversion, and Agreeableness, as the foundation for our benchmark. We then gather data using GPT-4, generating responses that not only align with a specified topic but also embody the targeted personality trait. We conduct comprehensive experiments involving various baselines and discuss the representation of personality behavior in LLMs. Our intriguing findings uncover potential challenges of the proposed task, illustrating several remaining issues. We anticipate that our work can provide the NLP community with insights. Code and datasets are available at https://github.com/zjunlp/EasyEdit.
翻訳日:2024-04-10 04:28:07 公開日:2024-04-06
# FakeGPT: 大規模言語モデルのフェイクニュース生成・説明・検出

FakeGPT: Fake News Generation, Explanation and Detection of Large Language Models ( http://arxiv.org/abs/2310.05046v2 )

ライセンス: Link先を確認
Yue Huang, Lichao Sun, (参考訳) 偽ニュースの拡散が社会に悪影響を及ぼし、拡散を抑制する研究が盛んに行われている。 大規模言語モデル(LLMs)における注目すべきマイルストーンとして、ChatGPTはその例外的な自然言語処理能力のために注目されている。 本研究では,ChatGPTのフェイクニュースの生成,説明,検出における熟練度について,次のように詳細に検討する。 生成 -- 偽ニュースのサンプルを生成し、自己評価と人的評価の両面から、これらのサンプルの品質を証明するために、4つのプロンプト手法を用いる。 説明 -- ChatGPTの説明に基づいて偽ニュースを特徴付ける9つの機能を取得し、これらの要因を複数の公開データセットに分散して分析する。 検出一貫性について検討し,その性能向上のための理由認識プロンプト手法を提案する。 われわれの実験では、ChatGPTは偽ニュースを検出するのに満足できる性能を示したが、改善の余地はまだ残っている。 これにより、偽ニュースを検出する効果を高める可能性のある、潜在的な余分な情報についても調査する。

The rampant spread of fake news has adversely affected society, resulting in extensive research on curbing its spread. As a notable milestone in large language models (LLMs), ChatGPT has gained significant attention due to its exceptional natural language processing capabilities. In this study, we present a thorough exploration of ChatGPT's proficiency in generating, explaining, and detecting fake news as follows. Generation -- We employ four prompt methods to generate fake news samples and prove the high quality of these samples through both self-assessment and human evaluation. Explanation -- We obtain nine features to characterize fake news based on ChatGPT's explanations and analyze the distribution of these factors across multiple public datasets. Detection -- We examine ChatGPT's capacity to identify fake news. We explore its detection consistency and then propose a reason-aware prompt method to improve its performance. Although our experiments demonstrate that ChatGPT shows commendable performance in detecting fake news, there is still room for its improvement. Consequently, we further probe into the potential extra information that could bolster its effectiveness in detecting fake news.
翻訳日:2024-04-10 04:28:07 公開日:2024-04-06
# 教師なしエンティティ解決のためのコスト効率の良いプロンプトエンジニアリング

Cost-Efficient Prompt Engineering for Unsupervised Entity Resolution ( http://arxiv.org/abs/2310.06174v2 )

ライセンス: Link先を確認
Navapat Nananukul, Khanin Sisaengsuwanchai, Mayank Kejriwal, (参考訳) エンティティ解決(ER)は、2つのエンティティが同じ基礎エンティティをいつ参照するかを半自動決定する問題である。 従来のERソリューションでは、ドメイン固有の機能エンジニアリングや、トレーニングデータの識別とキュレーションなど、かなりの手作業の専門知識が必要だった。 最近リリースされた大きな言語モデル(LLM)は、ERをよりシームレスでドメインに依存しないものにする機会を提供する。 しかし、LSMはリスクを生じさせる可能性があり、その出力の品質はプロンプトの作り方に依存することが知られている。 残念ながら、ChatGPTのようなLLMを用いて、教師なしERに対処するための異なるプロンプト法の効果に関する系統的研究は、これまで行われていない。 本稿では,このような研究を行うことで,このギャップに対処することを目的とする。 比較的単純で費用効率のよいERプロンプトエンジニアリング手法を検討し、コミュニティで広く使われている2つの実世界のデータセット上でERに適用する。 我々は、GPT3.5のようなLCMが高性能な教師なしERで実現可能であることを示すために、広範囲な実験結果を用いており、興味深いことに、より複雑で詳細な(従って高価である)プロンプト法は、必ずしもより単純なアプローチより優れているとは限らない。 定性的および誤り分析に関する簡単な議論を行い、安定な出力を得るかどうかを判断するために異なるプロンプト法間の整合性について検討する。 最後に,ER に適用した場合の LLM の制限について考察する。

Entity Resolution (ER) is the problem of semi-automatically determining when two entities refer to the same underlying entity, with applications ranging from healthcare to e-commerce. Traditional ER solutions required considerable manual expertise, including domain-specific feature engineering, as well as identification and curation of training data. Recently released large language models (LLMs) provide an opportunity to make ER more seamless and domain-independent. However, it is also well known that LLMs can pose risks, and that the quality of their outputs can depend on how prompts are engineered. Unfortunately, a systematic experimental study on the effects of different prompting methods for addressing unsupervised ER, using LLMs like ChatGPT, has been lacking thus far. This paper aims to address this gap by conducting such a study. We consider some relatively simple and cost-efficient ER prompt engineering methods and apply them to ER on two real-world datasets widely used in the community. We use an extensive set of experimental results to show that an LLM like GPT3.5 is viable for high-performing unsupervised ER, and interestingly, that more complicated and detailed (and hence, expensive) prompting methods do not necessarily outperform simpler approaches. We provide brief discussions on qualitative and error analysis, including a study of the inter-consistency of different prompting methods to determine whether they yield stable outputs. Finally, we consider some limitations of LLMs when applied to ER.
翻訳日:2024-04-10 04:28:07 公開日:2024-04-06
# モデルに基づく強化学習における客観的ミスマッチの解法に関する統一的視点

A Unified View on Solving Objective Mismatch in Model-Based Reinforcement Learning ( http://arxiv.org/abs/2310.06253v2 )

ライセンス: Link先を確認
Ran Wei, Nathan Lambert, Anthony McDonald, Alfredo Garcia, Roberto Calandra, (参考訳) モデルベース強化学習(MBRL)は、エージェントが環境の明示的なモデルを学ぶことで、よりサンプリング効率、適応性、説明しやすくすることを目的としている。 MBRLエージェントの能力は近年大幅に改善されているが、モデルをどのように学習するかはまだ未解決の問題である。 MBRLアルゴリズムの大半は、環境に関する正確な予測を行うためにモデルをトレーニングすることを目的としており、その後、最も報われる行動を決定するためにモデルを使用する。 しかし,近年の研究では,モデル予測精度が行動品質と相関しない場合が多く,その根本原因を正確な力学モデル学習と報酬の政策最適化の客観的なミスマッチに追従することが示されている。 MBRLが研究領域として成熟を続けるにつれ、客観的なミスマッチ問題に対する多くの相互関連ソリューションカテゴリが出現している。 本研究では,これらの解のカテゴリについて詳細な調査を行い,今後の研究を促進するための分類法を提案する。

Model-based Reinforcement Learning (MBRL) aims to make agents more sample-efficient, adaptive, and explainable by learning an explicit model of the environment. While the capabilities of MBRL agents have significantly improved in recent years, how to best learn the model is still an unresolved question. The majority of MBRL algorithms aim at training the model to make accurate predictions about the environment and subsequently using the model to determine the most rewarding actions. However, recent research has shown that model predictive accuracy is often not correlated with action quality, tracing the root cause to the objective mismatch between accurate dynamics model learning and policy optimization of rewards. A number of interrelated solution categories to the objective mismatch problem have emerged as MBRL continues to mature as a research area. In this work, we provide an in-depth survey of these solution categories and propose a taxonomy to foster future research.
翻訳日:2024-04-10 04:28:07 公開日:2024-04-06
# QLLM:大規模言語モデルのための高精度で効率的な低ビット幅量子化

QLLM: Accurate and Efficient Low-Bitwidth Quantization for Large Language Models ( http://arxiv.org/abs/2310.08041v3 )

ライセンス: Link先を確認
Jing Liu, Ruihao Gong, Xiuying Wei, Zhiwei Dong, Jianfei Cai, Bohan Zhuang, (参考訳) 大規模言語モデル(LLM)はNLPで優れているが、その要求は広く展開を妨げている。 QAT(Quantization-Aware Training)はソリューションを提供するが、その広範なトレーニングコストにより、PTQ(Post-Training Quantization)はLLMにとってより実用的なアプローチとなる。 既存の研究では、特定のチャネルにおけるアクティベーション・アウトレイアがPTQ精度のボトルネックとして認識されている。 彼らはこの大きさを活性化から重みに変換することを提案したが、これは限定的な緩和や不安定な勾配に悩まされ、結果として低ビット幅での厳しい性能低下を招いた。 本稿では,LLMのための高精度かつ効率的な低ビット幅PTQ法であるQLLMを提案する。 QLLMはアダプティブチャネル再組み立て技術を導入し、他のチャネルにアウトレーヤの規模を割り当てることで、量子化範囲への影響を緩和する。 これは、チャネル分解とチャネルアセンブリによって実現され、最初に外部チャネルを複数のサブチャネルに分割し、活性化の規模をよりバランスよく分布させる。 そして、類似のチャネルをマージして、元のチャネル番号を効率よく維持する。 さらに、適応戦略は、チャネル分解のための最適なサブチャネル数を自律的に決定するように設計されている。 量子化による性能損失を補うために,事前学習した量子化モデルを凍結しながら少数の低ランク重みのみを学習する効率的なチューニング手法を提案する。 トレーニング後、これらの低ランクパラメータは推論に影響を与えることなく凍結重量に融合することができる。 LLaMA-1とLLaMA-2の大規模な実験は、QLLMが正確な量子化モデルを効率的に得ることを示す。 例えば、QLLMは、1つのA100-80G GPU上で4ビットのLLaMA-2-70Bを10時間以内に量子化し、5つのゼロショットタスクの平均精度を7.89%上回る。

Large Language Models (LLMs) excel in NLP, but their demands hinder their widespread deployment. While Quantization-Aware Training (QAT) offers a solution, its extensive training costs make Post-Training Quantization (PTQ) a more practical approach for LLMs. In existing studies, activation outliers in particular channels are identified as the bottleneck to PTQ accuracy. They propose to transform the magnitudes from activations to weights, which however offers limited alleviation or suffers from unstable gradients, resulting in a severe performance drop at low-bitwidth. In this paper, we propose QLLM, an accurate and efficient low-bitwidth PTQ method designed for LLMs. QLLM introduces an adaptive channel reassembly technique that reallocates the magnitude of outliers to other channels, thereby mitigating their impact on the quantization range. This is achieved by channel disassembly and channel assembly, which first breaks down the outlier channels into several sub-channels to ensure a more balanced distribution of activation magnitudes. Then similar channels are merged to maintain the original channel number for efficiency. Additionally, an adaptive strategy is designed to autonomously determine the optimal number of sub-channels for channel disassembly. To further compensate for the performance loss caused by quantization, we propose an efficient tuning method that only learns a small number of low-rank weights while freezing the pre-trained quantized model. After training, these low-rank parameters can be fused into the frozen weights without affecting inference. Extensive experiments on LLaMA-1 and LLaMA-2 show that QLLM can obtain accurate quantized models efficiently. For example, QLLM quantizes the 4-bit LLaMA-2-70B within 10 hours on a single A100-80G GPU, outperforming the previous state-of-the-art method by 7.89% on the average accuracy across five zero-shot tasks.
翻訳日:2024-04-10 02:35:24 公開日:2024-04-06
# 一度だけトレーニングする: フル参照とノン参照の両方の画質評価のための統一フレームワーク

You Only Train Once: A Unified Framework for Both Full-Reference and No-Reference Image Quality Assessment ( http://arxiv.org/abs/2310.09560v2 )

ライセンス: Link先を確認
Yi Ke Yun, Weisi Lin, (参考訳) 近年,画像品質評価 (IQA) の取り組みは有望な成果を上げているが,人間の視覚システム (HVS) と比較して大きな差がある。 人間の完全な参照(FR)タスクと参照(NR)タスクのシームレスな遷移には大きな違いがあるが、既存のモデルはFRまたはNRタスクに制約されている。 この格差は、2つの異なるシステムを設計する必要があることを意味し、それによってモデルの汎用性が大幅に低下する。 したがって、一つの枠組みの下でFRとNR IQAを統合することに重点を置いている。 具体的には、まずエンコーダを用いて入力画像から多レベル特徴を抽出する。 そして、各エンコーダ段階での空間歪みをモデル化するために、FRおよびNR入力のユニバーサルアダプタとして階層的注意(HA)モジュールを提案する。 さらに、異なる歪みがエンコーダのステージと損傷画像の意味を異なる意味で汚染することを考慮すると、エンコーダの浅い層と深い層の特徴相関を調べるために、セマンティック・ディストーション・アウェア(SDA)モジュールを提案する。 HAとSDAを採用することにより、提案ネットワークはFRとNRのIQAの両方を効果的に実行することができる。 提案モデルがNRまたはFR IQAタスクで独立に訓練された場合、既存のモデルよりも優れ、最先端のパフォーマンスを実現する。 さらに、NR IQAタスクとFR IQAタスクを共同でトレーニングすると、最先端のFR IQAにおいてオンパー性能を実現しつつ、NR IQAの性能をさらに向上する。 IQAタスクの両方を実行するために、一度だけトレーニングします。 コードは、https://github.com/BarCodeReader/YOTO.comでリリースされる。

Although recent efforts in image quality assessment (IQA) have achieved promising performance, there still exists a considerable gap compared to the human visual system (HVS). One significant disparity lies in humans' seamless transition between full reference (FR) and no reference (NR) tasks, whereas existing models are constrained to either FR or NR tasks. This disparity implies the necessity of designing two distinct systems, thereby greatly diminishing the model's versatility. Therefore, our focus lies in unifying FR and NR IQA under a single framework. Specifically, we first employ an encoder to extract multi-level features from input images. Then a Hierarchical Attention (HA) module is proposed as a universal adapter for both FR and NR inputs to model the spatial distortion at each encoder stage. Furthermore, considering that different distortions contaminate encoder stages and damage image semantic meaning differently, a Semantic Distortion Aware (SDA) module is proposed to examine feature correlations between shallow and deep layers of the encoder. By adopting HA and SDA, the proposed network can effectively perform both FR and NR IQA. When our proposed model is independently trained on NR or FR IQA tasks, it outperforms existing models and achieves state-of-the-art performance. Moreover, when trained jointly on NR and FR IQA tasks, it further enhances the performance of NR IQA while achieving on-par performance in the state-of-the-art FR IQA. You only train once to perform both IQA tasks. Code will be released at: https://github.com/BarCodeReader/YOTO.
翻訳日:2024-04-10 02:35:24 公開日:2024-04-06
# 意思決定モデルによる初歩的なギャップのブリッジ化:数学ミスの即時化を事例として

Bridging the Novice-Expert Gap via Models of Decision-Making: A Case Study on Remediating Math Mistakes ( http://arxiv.org/abs/2310.10648v3 )

ライセンス: Link先を確認
Rose E. Wang, Qingyang Zhang, Carly Robinson, Susanna Loeb, Dorottya Demszky, (参考訳) 質の高いチューリングをスケールすることは、教育における大きな課題である。 需要の増大により、多くのプラットフォームは初心者の家庭教師を雇い、経験豊富な教育者とは異なり、学生の誤りに対処するのに苦労し、結果として初等学習の機会をつかむのに失敗する。 本研究は,大規模言語モデル (LLM) の可能性を探究し,算数ミスの即時処理における初歩的知識ギャップを埋めるものである。 認知的タスク分析を用いて、専門家の潜在思考プロセスを、修復のための意思決定モデルに変換する方法であるBridgeをコントリビュートする。 これには、(A) 生徒の誤り、(B) 修復戦略、(C) 反応を生成する前の意図を特定する専門家が含まれる。 我々は,700件の実際の学習談話のデータセットを構築し,その判断に専門家が注釈を付けた。 我々は、データセット上で最先端のLCMを評価し、専門家の意思決定モデルがLSMにとってギャップを埋めるのに重要であることを発見した。 ランダムな決定は、専門家による決定よりも、GPT4の応答品質を-97%削減します。 我々の研究は、初心者と専門家の知識ギャップを埋める能力を高めるために、専門家の思考プロセスをLLM世代に組み込む可能性を示している。 データセットとコードは以下の通りです。

Scaling high-quality tutoring remains a major challenge in education. Due to growing demand, many platforms employ novice tutors who, unlike experienced educators, struggle to address student mistakes and thus fail to seize prime learning opportunities. Our work explores the potential of large language models (LLMs) to close the novice-expert knowledge gap in remediating math mistakes. We contribute Bridge, a method that uses cognitive task analysis to translate an expert's latent thought process into a decision-making model for remediation. This involves an expert identifying (A) the student's error, (B) a remediation strategy, and (C) their intention before generating a response. We construct a dataset of 700 real tutoring conversations, annotated by experts with their decisions. We evaluate state-of-the-art LLMs on our dataset and find that the expert's decision-making model is critical for LLMs to close the gap: responses from GPT4 with expert decisions (e.g., "simplify the problem") are +76% more preferred than without. Additionally, context-sensitive decisions are critical to closing pedagogical gaps: random decisions decrease GPT4's response quality by -97% than expert decisions. Our work shows the potential of embedding expert thought processes in LLM generations to enhance their capability to bridge novice-expert knowledge gaps. Our dataset and code can be found at: \url{https://github.com/rosewang2008/bridge}.
翻訳日:2024-04-10 02:35:24 公開日:2024-04-06
# S3Eval: 大規模言語モデルのための合成,スケーラブル,システム評価スイート

S3Eval: A Synthetic, Scalable, Systematic Evaluation Suite for Large Language Models ( http://arxiv.org/abs/2310.15147v2 )

ライセンス: Link先を確認
Fangyu Lei, Qian Liu, Yiming Huang, Shizhu He, Jun Zhao, Kang Liu, (参考訳) LLM(Large Language Models)の急速な開発は、長いコンテキスト理解や推論といったモデル機能に大きな進歩をもたらしました。 しかし、LLMはより長いコンテキストを処理できるため、テキストの長さ(例えば200Kトークン)が人間がある程度の期間で確実に評価できるものを超えるので、特定の能力を得たかどうかを評価することがより困難になる。 本稿では,複雑な合成タスクをプロキシ評価手法として使用し,LLM評価のための合成・スケーラブル・システム評価スイートであるS3Evalを提案する。 S3Evalの合成特性は、データセットを完全に制御し、テキストの長さとタスクの難易度をさまざまなシナリオで拡張することにより、LLM機能を体系的に調査することを可能にする。 S3Evalと実世界のベンチマークとの強い相関は、LLMの評価にS3Evalを使用することの健全性を示している。 S3Evalはフレキシブルで無限の長文データ生成方法を提供する。 我々は、S3Eval-Standardと呼ばれる包括的なデータセットを作成し、実験結果により、既存のLLMすべてに重大な課題が生じることを示した。

The rapid development of Large Language Models (LLMs) has led to great strides in model capabilities like long-context understanding and reasoning. However, as LLMs are able to process longer contexts, it becomes more challenging to evaluate whether they have acquired certain capabilities, since the length of text (e.g., 200K tokens) they can process far exceeds what humans can reliably assess in a reasonable duration. In this paper, we propose using complex synthetic tasks as a proxy evaluation method, and present S3Eval, a Synthetic, Scalable, Systematic evaluation suite for LLMs evaluation. The synthetic nature of S3Eval provides users full control over the dataset, allowing them to systematically probe LLM capabilities by scaling text length and varying task difficulty across diverse scenarios. The strong correlation between S3Eval and real-world benchmarks demonstrates the soundness of using S3Eval for evaluation of LLMs. S3Eval provides a flexible and infinite long-context data generation method. We have generated a comprehensive dataset called S3Eval-Standard, and experimental results have shown that it poses significant challenges for all existing LLMs.
翻訳日:2024-04-10 02:35:24 公開日:2024-04-06
# 3+1)Dフェルミオン$\mathbb{Z}_2$ゲージ理論の高次群対称性:高次対称性からの論理CCZ,CS,Tゲート

Higher-group symmetry of (3+1)D fermionic $\mathbb{Z}_2$ gauge theory: logical CCZ, CS, and T gates from higher symmetry ( http://arxiv.org/abs/2311.05674v3 )

ライセンス: Link先を確認
Maissam Barkeshli, Po-Shen Hsin, Ryohei Kobayashi, (参考訳) 最近、有限群位相ゲージ理論の完全な大域対称性は、より高い群の構造を含むことが理解されている。 ここでは、3+1)D $\mathbb{Z}_2$ゲージ理論の高群構造を創発的なフェルミオンで研究し、キラル$p+ip$位相状態の励起は混合重力異常を伴う$\mathbb{Z}_{8}$ 0-形式対称性をもたらすことを指摘した。 この通常の対称性は、他の高次対称性と混合して3つの群構造を形成し、詳しく調べる。 次に、安定化器量子符号の文脈において、それぞれ$T^3$ (3-torus) と $T^2 \rtimes_{C_2} S^1$ (2-torus bundle over the circle) の離散化に符号を配置し、$p+ip$状態の励起を行うことにより、論理CCZ と CS ゲートが得られることを示す。 我々はまた、$\mathbb{RP}^3$にコードを配置し、$p+ip$トポロジカルステートをポンプすることで、論理的な$T$ゲートの可能性も示唆している。

It has recently been understood that the complete global symmetry of finite group topological gauge theories contains the structure of a higher-group. Here we study the higher-group structure in (3+1)D $\mathbb{Z}_2$ gauge theory with an emergent fermion, and point out that pumping chiral $p+ip$ topological states gives rise to a $\mathbb{Z}_{8}$ 0-form symmetry with mixed gravitational anomaly. This ordinary symmetry mixes with the other higher symmetries to form a 3-group structure, which we examine in detail. We then show that in the context of stabilizer quantum codes, one can obtain logical CCZ and CS gates by placing the code on a discretization of $T^3$ (3-torus) and $T^2 \rtimes_{C_2} S^1$ (2-torus bundle over the circle) respectively, and pumping $p+ip$ states. Our considerations also imply the possibility of a logical $T$ gate by placing the code on $\mathbb{RP}^3$ and pumping a $p+ip$ topological state.
翻訳日:2024-04-10 02:25:39 公開日:2024-04-06
# どれか? 言語接地のためのオブジェクトと複数ビュー間のコンテキストの活用

Which One? Leveraging Context Between Objects and Multiple Views for Language Grounding ( http://arxiv.org/abs/2311.06694v3 )

ライセンス: Link先を確認
Chancharik Mitra, Abrar Anwar, Rodolfo Corona, Dan Klein, Trevor Darrell, Jesse Thomason, (参考訳) 具体化された3D環境下でオブジェクトと言語参照物を接続する場合、(1)オブジェクトと他のオブジェクトとの比較情報を活用して、(2)オブジェクトの外観がカメラの位置によって異なることを特徴付けることが重要である。 そこで本稿では,2つの類似したオブジェクトを識別する言語に基づいてオブジェクト参照を選択できる,Multi-view Approach to Grounding in Context (MAGiC)を提案する。 両方のオブジェクトとそれらのオブジェクトの複数のビューを実用的に推論することで、MAGiCはSNAREオブジェクト参照タスクの最先端モデルを12.9\%(絶対的な改善 2.7\%)で改善する。 アブレーション研究では、オブジェクト参照候補に対する推論と、各オブジェクトの複数のビューの両方が、精度の向上に寄与している。 コード:https://github.com/rcorona/magic_snare/

When connecting objects and their language referents in an embodied 3D environment, it is important to note that: (1) an object can be better characterized by leveraging comparative information between itself and other objects, and (2) an object's appearance can vary with camera position. As such, we present the Multi-view Approach to Grounding in Context (MAGiC), which selects an object referent based on language that distinguishes between two similar objects. By pragmatically reasoning over both objects and across multiple views of those objects, MAGiC improves over the state-of-the-art model on the SNARE object reference task with a relative error reduction of 12.9\% (representing an absolute improvement of 2.7\%). Ablation studies show that reasoning jointly over object referent candidates and multiple views of each object both contribute to improved accuracy. Code: https://github.com/rcorona/magic_snare/
翻訳日:2024-04-10 02:25:39 公開日:2024-04-06
# NeuroPrompts: テキスト・画像生成のためのPromptを最適化するための適応フレームワーク

NeuroPrompts: An Adaptive Framework to Optimize Prompts for Text-to-Image Generation ( http://arxiv.org/abs/2311.12229v2 )

ライセンス: Link先を確認
Shachar Rosenman, Vasudev Lal, Phillip Howard, (参考訳) 近年、テキストから画像への拡散モデルが著しく進歩しているにもかかわらず、高品質な画像を得るには、それを使う専門知識が発達した人間による迅速なエンジニアリングが必要であることが多い。 本研究では,テキスト・ツー・イメージ・モデルによって生成される世代の品質向上のために,ユーザのプロンプトを自動的に強化する適応型フレームワークであるNeuroPromptsを提案する。 我々のフレームワークは,人間のプロンプトエンジニアが生成したようなプロンプトを生成するために,事前訓練された言語モデルを用いて制約付きテキストデコードを利用する。 このアプローチは、高品質なテキスト・ツー・イメージ世代を可能にし、制約セット仕様によるスタイリスティックな特徴に対するユーザ制御を提供する。 安定拡散を用いた画像生成を促進・促進するための対話型アプリケーションを作成することにより,本フレームワークの有用性を実証する。 さらに,人間工学的プロンプトの大規模なデータセットを用いたテキスト・画像生成実験を行い,提案手法が画像品質を向上する強化プロンプトを自動生成することを示す。 コードとNeuroPromptsのスクリーンキャストビデオデモを公開しています。

Despite impressive recent advances in text-to-image diffusion models, obtaining high-quality images often requires prompt engineering by humans who have developed expertise in using them. In this work, we present NeuroPrompts, an adaptive framework that automatically enhances a user's prompt to improve the quality of generations produced by text-to-image models. Our framework utilizes constrained text decoding with a pre-trained language model that has been adapted to generate prompts similar to those produced by human prompt engineers. This approach enables higher-quality text-to-image generations and provides user control over stylistic features via constraint set specification. We demonstrate the utility of our framework by creating an interactive application for prompt enhancement and image generation using Stable Diffusion. Additionally, we conduct experiments utilizing a large dataset of human-engineered prompts for text-to-image generation and show that our approach automatically produces enhanced prompts that result in superior image quality. We make our code and a screencast video demo of NeuroPrompts publicly available.
翻訳日:2024-04-10 02:15:45 公開日:2024-04-06
# 医療データのための多分野信頼ネットワーク

Multinomial belief networks for healthcare data ( http://arxiv.org/abs/2311.16909v3 )

ライセンス: Link先を確認
H. C. Donker, D. Neijzen, J. de Jong, G. A. Lunter, (参考訳) 患者または人口コホートからの医療データは、しばしば、疎らさ、高い欠如、そして比較的小さなサンプルサイズによって特徴づけられる。 さらに、医学的な文脈で不確実性を定量化できることは、しばしば重要である。 これらの解析的要求に対処するために、多項数データに対する深部生成ベイズモデルを提案する。 我々は、Zhou$\unicode{x2013}$Cong$\unicode{x2013}$Chenモデルにインスパイアされた一連の拡張関係を利用する、崩壊したギブスサンプリング手順を開発する。 我々は、手書き桁のデータセットを用いて、データのコヒーレントなサブ構造を識別するモデルの能力を可視化する。 次に、がんにおけるDNA変異の大規模な実験データセットに適用し、生物学的に意味のある突然変異シグネチャのクラスタを、完全にデータ駆動の方法で識別できることを示します。

Healthcare data from patient or population cohorts are often characterized by sparsity, high missingness and relatively small sample sizes. In addition, being able to quantify uncertainty is often important in a medical context. To address these analytical requirements we propose a deep generative Bayesian model for multinomial count data. We develop a collapsed Gibbs sampling procedure that takes advantage of a series of augmentation relations, inspired by the Zhou$\unicode{x2013}$Cong$\unicode{x2013}$Chen model. We visualise the model's ability to identify coherent substructures in the data using a dataset of handwritten digits. We then apply it to a large experimental dataset of DNA mutations in cancer and show that we can identify biologically meaningful clusters of mutational signatures in a fully data-driven way.
翻訳日:2024-04-10 02:06:00 公開日:2024-04-06
# SANeRF-HQ: 高品質なNeRF用セグメンテーション

SANeRF-HQ: Segment Anything for NeRF in High Quality ( http://arxiv.org/abs/2312.01531v2 )

ライセンス: Link先を確認
Yichen Liu, Benran Hu, Chi-Keung Tang, Yu-Wing Tai, (参考訳) 近年,セグメンテーションモデル (SAM) はゼロショットセグメンテーションの顕著な能力を示し,NeRF (Neural Radiance Fields) は新規なビュー合成以上の様々な3次元問題の解法として人気を集めている。 これらの2つの手法を3Dセグメンテーションに組み込む試みは、当初はあったが、複雑なシナリオでオブジェクトを正確に一貫したセグメンテーションするという課題に直面している。 本稿では,特定のシーンにおける対象物の高品質な3Dセグメンテーションを実現するために,SANeRF-HQ(Segment Anything for NeRF in High Quality)を提案する。 SANeRF-HQはSAMをユーザからのプロンプトによって誘導されるオープンワールドのオブジェクトセグメンテーションに利用し、NeRFを利用して異なる視点から情報を収集する。 上記の課題を克服するために、集約中のセグメンテーション境界の精度を高めるために密度場とRGB類似性を用いる。 セグメンテーションの精度を重視し,高品質な接地構造が利用できる,あるいは手動でアノテートされた複数のNeRFデータセット上で評価を行った。 SANeRF-HQは、NeRFオブジェクトセグメンテーションにおける最先端メソッドよりも大幅な品質向上を示し、オブジェクトローカライゼーションの柔軟性を高め、複数のビューにまたがるより一貫性のあるオブジェクトセグメンテーションを可能にする。 結果とコードはプロジェクトのサイト(https://lyclyc52.github.io/SANeRF-HQ/)で公開されている。

Recently, the Segment Anything Model (SAM) has showcased remarkable capabilities of zero-shot segmentation, while NeRF (Neural Radiance Fields) has gained popularity as a method for various 3D problems beyond novel view synthesis. Though there exist initial attempts to incorporate these two methods into 3D segmentation, they face the challenge of accurately and consistently segmenting objects in complex scenarios. In this paper, we introduce the Segment Anything for NeRF in High Quality (SANeRF-HQ) to achieve high-quality 3D segmentation of any target object in a given scene. SANeRF-HQ utilizes SAM for open-world object segmentation guided by user-supplied prompts, while leveraging NeRF to aggregate information from different viewpoints. To overcome the aforementioned challenges, we employ density field and RGB similarity to enhance the accuracy of segmentation boundary during the aggregation. Emphasizing on segmentation accuracy, we evaluate our method on multiple NeRF datasets where high-quality ground-truths are available or manually annotated. SANeRF-HQ shows a significant quality improvement over state-of-the-art methods in NeRF object segmentation, provides higher flexibility for object localization, and enables more consistent object segmentation across multiple views. Results and code are available at the project site: https://lyclyc52.github.io/SANeRF-HQ/.
翻訳日:2024-04-10 02:06:00 公開日:2024-04-06
# GRE試験におけるChatGPT, GPT-4, Microsoft Bing Chatbotの比較解析

Comparative Analysis of ChatGPT, GPT-4, and Microsoft Bing Chatbots for GRE Test ( http://arxiv.org/abs/2312.03719v4 )

ライセンス: Link先を確認
Mohammad Abu-Haifa, Bara'a Etawi, Huthaifa Alkhatatbeh, Ayman Ababneh, (参考訳) 本研究では,Bing,ChatGPT,GPT-4の3つの人工知能チャットボットが,標準化されたテストから質問に答える上で,いかにうまく機能するかを解析する。 本論文では,研究記録試験を事例研究として用いた。 量的推論の異なる137の質問と、言語カテゴリーを持つ157の質問が、それらの能力を評価するために使用された。 本稿では,各チャットボットの性能を,試験でテストしたさまざまなスキルとスタイルで比較する。 画像に基づく質問に対処するチャットボットの習熟度についても検討し、各チャットボットの不確実性レベルについて説明する。 その結果, GPT-4が最も熟達したチャットボット, 特に複雑な言語理解タスクや画像に基づく質問において, チャットボット全体の成功度は様々であった。 結果は、これらのチャットボットが高いスコアでGREをパスする能力を強調し、テストの準備にこれらのチャットボットを使うことを促進する。 結果はまた、検査がオンラインで行われている場合、その検査が新型コロナウイルスの期間中に、より高い教育機会に関する公正な競争のためにこれらのリソースから分離されることを確実にすることが重要であることも示している。

This research paper presents an analysis of how well three artificial intelligence chatbots: Bing, ChatGPT, and GPT-4, perform when answering questions from standardized tests. The Graduate Record Examination is used in this paper as a case study. A total of 137 questions with different forms of quantitative reasoning and 157 questions with verbal categories were used to assess their capabilities. This paper presents the performance of each chatbot across various skills and styles tested in the exam. The proficiency of these chatbots in addressing image-based questions is also explored, and the uncertainty level of each chatbot is illustrated. The results show varying degrees of success across the chatbots, where GPT-4 served as the most proficient, especially in complex language understanding tasks and image-based questions. Results highlight the ability of these chatbots to pass the GRE with a high score, which encourages the use of these chatbots in test preparation. The results also show how important it is to ensure that, if the test is administered online, as it was during COVID, the test taker is segregated from these resources for a fair competition on higher education opportunities.
翻訳日:2024-04-10 01:56:13 公開日:2024-04-06
# ハール測度に基づく量子リウヴィルの定理

Quantum Liouville's theorem based on Haar measure ( http://arxiv.org/abs/2312.04778v3 )

ライセンス: Link先を確認
B. Q. Song, J. D. H. Smith, L. Luo, J. Wang, (参考訳) リウヴィルの定理 (LT) は任意のポテンシャルを与えられた位相空間における分布関数の堅牢な非圧縮性を明らかにする。 しかし、その量子一般化であるウィグナーフローは圧縮可能であり、すなわち、LT は条件的にのみ真である(例えば、完全調和ポテンシャルに対して)。 我々は、ハミルトニアンにおける任意のポテンシャル(相互作用するか否かにかかわらず)に対する量子リウヴィルの定理(厳密な非圧縮性)を開発する。 ハール測度は、ウィグナーのスキームで使われるシンプレクティック測度 dp^dq の代わりに、中心的な役割を果たす。 この議論は、特定の空間や座標に依存しない一般測度理論に基づいている。 例えば、なぜハール測度とメートル法保存が古典的ケースで機能しないのかを論じる。 統計学、位相相転移、エルゴード理論等における定理の適用について論じる。

Liouville theorem (LT) reveals robust incompressibility of distribution function in phase space, given arbitrary potentials. However, its quantum generalization, Wigner flow, is compressible, i.e., LT is only conditionally true (e.g., for perfect Harmonic potential). We develop quantum Liouville theorem (rigorous incompressibility) for arbitrary potentials (interacting or not) in Hamiltonians. Haar measure, instead of symplectic measure dp^dq used in Wigner's scheme, plays a central role. The argument is based on general measure theory, independent of specific spaces or coordinates. Comparison of classical and quantum is made: for instance, we address why Haar measure and metric preservation do not work in the classical case. Applications of theorems in statistics, topological phase transition, ergodic theory, etc. are discussed.
翻訳日:2024-04-10 01:56:13 公開日:2024-04-06
# 雑音とアンサンプ付きボリューム画像のフィルタ用画素潜時変数

Filtering Pixel Latent Variables for Unmixing Noisy and Undersampled Volumetric Images ( http://arxiv.org/abs/2312.05357v2 )

ライセンス: Link先を確認
Catherine Bouchard, Andréanne Deschênes, Vincent Boulanger, Jean-Michel Bellavance, Flavie Lavoie-Cardinal, Christian Gagné, (参考訳) 頑健な信号アンミックスアルゴリズムの開発は、ハイパースペクトルや時間分解による取得など、幅広い科学的イメージング技術を通じて得られたマルチモーダルデータセットを活用するために不可欠である。 実験物理学では、時空間分解能を高めたり、検出チャネルの数を増やしたりすると、サンプリング率と信号-雑音比が減少し、信号アンミックスアルゴリズムの有効性に大きな影響を及ぼす。 多次元畳み込みニューラルネットワークの潜在空間に帯域通過フィルタを適用し、重なり合う信号成分を分解し、個々のコントリビューションの分離と定量化を可能にする。 多次元畳み込みカーネルを用いて全ての次元を同時に処理することで、隣接するピクセル、時間またはスペクトルビンから情報を抽出するネットワークの能力を向上する。 このアプローチは、個々のピクセルが明確でよく解決された情報を提供していない場合に、より効果的なコンポーネントの分離を可能にする。 本稿では,光ファイバーの蛍光寿命顕微鏡法とモード分解法という,アプローチの汎用性を強調した2つの試験事例を通して,実験物理学における本手法の実用化について紹介する。 遅延アンミックス法は、標準的な方法では解決できない複雑な信号から貴重な情報を抽出する。 遅延アンミキシングの実際のFLIM実験への応用は、識別可能な蛍光マーカーの数を増やす。 また、多チャンネル分離のための光学とフォトニクスの新たな可能性も、サンプリングレートの増加で開く。

The development of robust signal unmixing algorithms is essential for leveraging multimodal datasets acquired through a wide array of scientific imaging technologies, including hyperspectral or time-resolved acquisitions. In experimental physics, enhancing the spatio-temporal resolution or expanding the number of detection channels often leads to diminished sampling rate and signal-to-noise ratio, significantly affecting the efficacy of signal unmixing algorithms. We propose applying band-pass filters to the latent space of a multi-dimensional convolutional neural network to disentangle overlapping signal components, enabling the isolation and quantification of their individual contributions. Using multi-dimensional convolution kernels to process all dimensions simultaneously enhances the network's ability to extract information from adjacent pixels, time- or spectral-bins. This approach enables more effective separation of components in cases where individual pixels do not provide clear, well-resolved information. We showcase the method's practical use in experimental physics through two test cases that highlight the versatility of our approach: fluorescence lifetime microscopy and mode decomposition in optical fibers. The latent unmixing method extracts valuable information from complex signals that cannot be resolved by standard methods. Application of latent unmixing to real FLIM experiments will increase the number of distinguishable fluorescent markers. It will also open new possibilities in optics and photonics for multichannel separations at increased sampling rate.
翻訳日:2024-04-10 01:56:13 公開日:2024-04-06
# ハイパーマトリクスと絡み合いとしての量子

Qubits as Hypermatrices and Entanglement ( http://arxiv.org/abs/2312.06944v3 )

ライセンス: Link先を確認
Isaac Dobes, Naihuan Jing, (参考訳) 本稿では、超行列として$n$-qubitsを表現し、量子絡み合わせへの様々な応用について考察する。 特に、超行列の高階特異値分解を用いて、$\pi$-transpose が LU 不変量であることを証明する。 さらに、我々の構成により、2n$-qubits の組合せ超行列の行列表現が第2のパウリ行列の積として表現できることを示し、$n$-tangle の観点から2n$-qubits の組合せ超行列の式を導出することができる。

In this paper, we represent $n$-qubits as hypermatrices and consider various applications to quantum entanglement. In particular, we use the higher-order singular value decomposition of hypermatrices to prove that the $\pi$-transpose is an LU invariant. Additionally, through our construction we show that the matrix representation of the combinatorial hyperdeterminant of $2n$-qubits can be expressed as a product of the second Pauli matrix, allowing us to derive a formula for the combinatorial hyperdeterminant of $2n$-qubits in terms of the $n$-tangle.
翻訳日:2024-04-10 01:56:13 公開日:2024-04-06
# テンプレートフリーによる手続き的相互作用生成による人間と物体の相互作用の再構築

Template Free Reconstruction of Human-object Interaction with Procedural Interaction Generation ( http://arxiv.org/abs/2312.07063v3 )

ライセンス: Link先を確認
Xianghui Xie, Bharat Lal Bhatnagar, Jan Eric Lenssen, Gerard Pons-Moll, (参考訳) 単一のRGB画像から3Dで人間とオブジェクトのインタラクションを再構築することは難しい作業であり、既存のデータ駆動手法は慎重に計算された3Dインタラクションデータセットに存在するオブジェクトを超えて一般化しない。 強力な相互作用と3次元形状の先行を学習するために大規模な実データをキャプチャすることは、人間と物体の相互作用の組合せの性質のために非常に高価である。 本稿では,ProciGen(Procedural Interaction Generation, 手続き的インタラクション生成)を提案する。 我々は3Dで1M以上の人間と物体の相互作用ペアを生成し、この大規模なデータを利用してHDM(Hierarchical Diffusion Model)を訓練する。 我々のHDMは、現実的な相互作用と高精度な人間と物体の形状の両方を学習する画像条件拡散モデルである。 ProciGenでトレーニングしたHDMは、テンプレートメッシュを必要とする事前メソッドよりも大幅に優れており、データセットは、オブジェクトインスタンスを発見できない強力な一般化能力を持つトレーニングメソッドを可能にします。 私たちのコードとデータはリリースされます。

Reconstructing human-object interaction in 3D from a single RGB image is a challenging task and existing data driven methods do not generalize beyond the objects present in the carefully curated 3D interaction datasets. Capturing large-scale real data to learn strong interaction and 3D shape priors is very expensive due to the combinatorial nature of human-object interactions. In this paper, we propose ProciGen (Procedural interaction Generation), a method to procedurally generate datasets with both, plausible interaction and diverse object variation. We generate 1M+ human-object interaction pairs in 3D and leverage this large-scale data to train our HDM (Hierarchical Diffusion Model), a novel method to reconstruct interacting human and unseen objects, without any templates. Our HDM is an image-conditioned diffusion model that learns both realistic interaction and highly accurate human and object shapes. Experiments show that our HDM trained with ProciGen significantly outperforms prior methods that requires template meshes and that our dataset allows training methods with strong generalization ability to unseen object instances. Our code and data are released.
翻訳日:2024-04-10 01:56:13 公開日:2024-04-06
# Joint2Human: 3Dジョイントのコンパクトな球面埋め込みによる高品質な3Dヒューマンジェネレーション

Joint2Human: High-quality 3D Human Generation via Compact Spherical Embedding of 3D Joints ( http://arxiv.org/abs/2312.08591v2 )

ライセンス: Link先を確認
Muxin Zhang, Qiao Feng, Zhuo Su, Chao Wen, Zhou Xue, Kun Li, (参考訳) 3Dヒューマンジェネレーションは、様々な応用においてますます重要になっている。 しかし、3D生成における2次元生成手法の直接的利用は、しばしば局所的な詳細をなくし、生成した画像から幾何を再構成する手法は、グローバルな視界の整合性に苦慮する。 本研究では,2次元拡散モデルを利用して詳細な3次元人体形状を直接生成し,グローバルな構造と局所的な細部を確実にする新しい手法であるJoint2Humanを紹介する。 これを実現するために、フーリエ占有場(FOF)表現を用い、2次元生成モデルによる予備結果として3次元形状の直接生成を可能にする。 提案手法は,高頻度エンハンサーと多視点再構成戦略により,異なる視点からの細部を均一なグローバルな形状にシームレスに統合することができる。 そこで我々は,3次元関節のコンパクトな球面埋め込みを導入する。 これにより、生成プロセス中のポーズの効果的なガイダンスが可能になる。 さらに,本手法では,テキスト入力によってガイドされる3次元人間を生成することができる。 実験により,グローバルな構造,局所的な詳細,高解像度,低計算コストを同時に確保できることを示す。 さらなる結果とコードは、プロジェクトのページ http://cic.tju.edu.cn/faculty/likun/projects/Joint2Human で確認できます。

3D human generation is increasingly significant in various applications. However, the direct use of 2D generative methods in 3D generation often results in losing local details, while methods that reconstruct geometry from generated images struggle with global view consistency. In this work, we introduce Joint2Human, a novel method that leverages 2D diffusion models to generate detailed 3D human geometry directly, ensuring both global structure and local details. To achieve this, we employ the Fourier occupancy field (FOF) representation, enabling the direct generation of 3D shapes as preliminary results with 2D generative models. With the proposed high-frequency enhancer and the multi-view recarving strategy, our method can seamlessly integrate the details from different views into a uniform global shape. To better utilize the 3D human prior and enhance control over the generated geometry, we introduce a compact spherical embedding of 3D joints. This allows for an effective guidance of pose during the generation process. Additionally, our method can generate 3D humans guided by textual inputs. Our experimental results demonstrate the capability of our method to ensure global structure, local details, high resolution, and low computational cost simultaneously. More results and the code can be found on our project page at http://cic.tju.edu.cn/faculty/likun/projects/Joint2Human.
翻訳日:2024-04-10 01:56:13 公開日:2024-04-06
# Open3DIS: 2Dマスクガイダンスを備えたオープンボキャブラリ3Dインスタンスセグメンテーション

Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance ( http://arxiv.org/abs/2312.10671v3 )

ライセンス: Link先を確認
Phuc D. A. Nguyen, Tuan Duc Ngo, Evangelos Kalogerakis, Chuang Gan, Anh Tran, Cuong Pham, Khoi Nguyen, (参考訳) オープンボキャブラリインスタンスセグメンテーション(Open-Vocabulary Instance Segmentation)の問題に、3Dシーンで対処するために設計された新しいソリューションであるOpen3DISを紹介する。 3D環境内のオブジェクトは、さまざまな形状、スケール、色を示し、正確なインスタンスレベルの識別が困難なタスクとなる。 近年のオープン・ボキャブラリ・シーン理解の進歩は,オブジェクトのローカライゼーションにクラスに依存しない3Dインスタンスの提案ネットワークを導入し,各3Dマスクに対してクエリ可能な特徴を学習することによって,この分野において大きな進歩を遂げている。 これらの手法は高品質なインスタンスの提案を生成するが、小型で幾何学的にあいまいな対象を特定するのに苦労する。 提案手法のキーとなるアイデアは,フレームにまたがって2次元のインスタンスマスクを集約し,それらを幾何学的に整合した点クラウド領域にマッピングする,上述の制限に対処する高品質なオブジェクトの提案である。 これらを3Dクラスに依存しないインスタンスの提案と組み合わせて、現実世界に幅広いオブジェクトを含める。 本研究では,ScanNet200,S3DIS,Replicaの3つの顕著なデータセットについて実験を行った。

We introduce Open3DIS, a novel solution designed to tackle the problem of Open-Vocabulary Instance Segmentation within 3D scenes. Objects within 3D environments exhibit diverse shapes, scales, and colors, making precise instance-level identification a challenging task. Recent advancements in Open-Vocabulary scene understanding have made significant strides in this area by employing class-agnostic 3D instance proposal networks for object localization and learning queryable features for each 3D mask. While these methods produce high-quality instance proposals, they struggle with identifying small-scale and geometrically ambiguous objects. The key idea of our method is a new module that aggregates 2D instance masks across frames and maps them to geometrically coherent point cloud regions as high-quality object proposals addressing the above limitations. These are then combined with 3D class-agnostic instance proposals to include a wide range of objects in the real world. To validate our approach, we conducted experiments on three prominent datasets, including ScanNet200, S3DIS, and Replica, demonstrating significant performance gains in segmenting objects with diverse categories over the state-of-the-art approaches.
翻訳日:2024-04-10 01:46:19 公開日:2024-04-06
# トークン化の課題: ジェンダー包摂型言語技術のためのデータ・スカース・トークン化の旅

Tokenization Matters: Navigating Data-Scarce Tokenization for Gender Inclusive Language Technologies ( http://arxiv.org/abs/2312.11779v3 )

ライセンス: Link先を確認
Anaelia Ovalle, Ninareh Mehrabi, Palash Goyal, Jwala Dhamala, Kai-Wei Chang, Richard Zemel, Aram Galstyan, Yuval Pinter, Rahul Gupta, (参考訳) ジェンダー非包括的NLP研究は、性差のある英語のネオプロノウン(eg , xe, zir, fae)を正しく使用できないなど、性差中心の大規模言語モデル(LLM)の有害な制限を文書化している。 データ不足は既知の原因であるが、この行動に悪影響を及ぼす正確なメカニズムは未解明のままである。 マイクロペア符号化(BPE)のトークン化によって,LLMの誤認識が著しく影響されていることが判明した。 二項代名詞とは異なり、BPEは新生代名詞をオーバーフラッグする。 この異種のトークン化は、多言語および低リソースのNLPで観測されるトークン化の制限を反映し、新しい誤った緩和戦略を解き放つ。 本研究では,(1)代名詞の代名詞化パリティ,(2)代名詞間の一貫した代名詞化を強制する手法,および(2)既存のLLM代名詞の知識を活用して新代名詞の習熟度を向上させる手法を提案する。 提案手法は,14.1%から58.4%に改善した。 本論文は, LLMミスジェンダーをトークン化, 欠損した新生代名詞文法にリンクする最初の論文であり, 代名詞として新生代名詞を正しく扱うことができないLLMは, ミスジェンダーの傾向が強いことを示唆している。

Gender-inclusive NLP research has documented the harmful limitations of gender binary-centric large language models (LLM), such as the inability to correctly use gender-diverse English neopronouns (e.g., xe, zir, fae). While data scarcity is a known culprit, the precise mechanisms through which scarcity affects this behavior remain underexplored. We discover LLM misgendering is significantly influenced by Byte-Pair Encoding (BPE) tokenization, the tokenizer powering many popular LLMs. Unlike binary pronouns, BPE overfragments neopronouns, a direct consequence of data scarcity during tokenizer training. This disparate tokenization mirrors tokenizer limitations observed in multilingual and low-resource NLP, unlocking new misgendering mitigation strategies. We propose two techniques: (1) pronoun tokenization parity, a method to enforce consistent tokenization across gendered pronouns, and (2) utilizing pre-existing LLM pronoun knowledge to improve neopronoun proficiency. Our proposed methods outperform finetuning with standard BPE, improving neopronoun accuracy from 14.1% to 58.4%. Our paper is the first to link LLM misgendering to tokenization and deficient neopronoun grammar, indicating that LLMs unable to correctly treat neopronouns as pronouns are more prone to misgender.
翻訳日:2024-04-10 01:46:19 公開日:2024-04-06
# 局所的特徴の交互集約による強化スイム変換器に基づく画像超解像再構成ネットワーク

Image Super-resolution Reconstruction Network based on Enhanced Swin Transformer via Alternating Aggregation of Local-Global Features ( http://arxiv.org/abs/2401.00241v4 )

ライセンス: Link先を確認
Yuming Huang, Yingpin Chen, Changhui Wu, Hanrong Xie, Binhui Song, Hui Wang, (参考訳) Swin Transformer画像の超分解能再構成ネットワークは、ウィンドウアテンションとウィンドウアテンションの長距離関係にのみ依存し、特徴を探索する。 この機構には2つの制限がある。 一方、グローバル機能のみに焦点を当て、ローカル機能を無視している。 一方、チャネルの特徴やチャネルの相互作用を無視しながら、空間的特徴の相互作用のみに関係しており、非線型マッピング能力を制限している。 上記の制限に対処するため,局所的特徴の交互集約によるSwin Transformerモジュールの拡張を提案する。 局所的な特徴集約段階において、局所的な空間情報とチャネル情報との相互作用を実現するシフト畳み込みを導入する。 そして、グローバル特徴集約段階において、ブロックスパースグローバル認識モジュールを導入する。 本モジュールでは,まず空間情報を再構成し,その再結合情報を高密度層に送信し,グローバルな知覚を実現する。 その後、複数スケールの自己アテンションモジュールと低パラメータの残チャンネルアテンションモジュールを導入し、異なるスケールで情報アグリゲーションを実現する。 最後に、提案されたネットワークは5つの公開データセットで検証される。 実験の結果,提案したネットワークは,他の最先端の超解像ネットワークよりも優れていた。

The Swin Transformer image super-resolution reconstruction network only relies on the long-range relationship of window attention and shifted window attention to explore features. This mechanism has two limitations. On the one hand, it only focuses on global features while ignoring local features. On the other hand, it is only concerned with spatial feature interactions while ignoring channel features and channel interactions, thus limiting its non-linear mapping ability. To address the above limitations, this paper proposes enhanced Swin Transformer modules via alternating aggregation of local-global features. In the local feature aggregation stage, we introduce a shift convolution to realize the interaction between local spatial information and channel information. Then, a block sparse global perception module is introduced in the global feature aggregation stage. In this module, we reorganize the spatial information first, then send the recombination information into a dense layer to implement the global perception. After that, a multi-scale self-attention module and a low-parameter residual channel attention module are introduced to realize information aggregation at different scales. Finally, the proposed network is validated on five publicly available datasets. The experimental results show that the proposed network outperforms the other state-of-the-art super-resolution networks.
翻訳日:2024-04-10 01:46:18 公開日:2024-04-06
# Tiny Time Mixers (TTMs):多変量時系列のZero/Few-Shot予測のための高速事前学習モデル

Tiny Time Mixers (TTMs): Fast Pre-trained Models for Enhanced Zero/Few-Shot Forecasting of Multivariate Time Series ( http://arxiv.org/abs/2401.03955v4 )

ライセンス: Link先を確認
Vijay Ekambaram, Arindam Jati, Nam H. Nguyen, Pankaj Dayama, Chandra Reddy, Wesley M. Gifford, Jayant Kalagnanam, (参考訳) ゼロ/フェーショット学習のための大規模な事前学習モデルは、言語や視覚領域において優れているが、多変量時系列(TS)において、公開されている事前学習データの多様性と不足により、課題に直面している。 その結果、TS予測のためのトークン適応による事前訓練済みの大規模言語モデル(LLM)の利用が近年急増している。 これらのアプローチはクロスドメイン転送学習を採用しており、驚くべき結果をもたらす。 しかしながら、これらのモデルは典型的には非常に遅く、大きい(−ビリオンパラメータ)ため、チャネル間の相関を考慮しない。 これを解決するために,軽量なTSMixerアーキテクチャに基づく,はるかに小さなモデルであるTiny Time Mixers (TTM)を提案する。 TTMは、パブリックTSデータセットにのみトレーニングされた高速で小さな一般トレーニング済みモデル(<1Mパラメータ)を開発し、予測に効果的な転送学習機能を備えた最初の成功である。 時間分解能の異なる複数のデータセットに対する事前トレーニングの複雑さに対処するために、適応パッチ、ダウンサンプリングによるデータセット拡張、解像度プレフィックスチューニングなど、いくつかの新しい拡張を導入する。 さらに,チャネル相関を効果的にモデル化し,既存のベンチマークに欠落する重要な機能である微調整時に外因性シグナルを注入するためのマルチレベルモデリング手法を用いる。 TTMは、少数/ゼロショットの予測において、人気のあるベンチマークよりも大幅に精度が向上している(12-38\%)。 また、LLM-TS法と比較して、学習可能なパラメータが14倍、総パラメータが106倍、微調整(65倍)と推論時間(54倍)が大幅に削減された。 実際、TTMのゼロショットは、多くの人気のあるベンチマークにおいて、数ショットの結果を上回ることが多く、我々のアプローチの有効性を強調している。 コードと事前訓練されたモデルはオープンソースになる。

Large pre-trained models for zero/few-shot learning excel in language and vision domains but encounter challenges in multivariate time series (TS) due to the diverse nature and scarcity of publicly available pre-training data. Consequently, there has been a recent surge in utilizing pre-trained large language models (LLMs) with token adaptations for TS forecasting. These approaches employ cross-domain transfer learning and surprisingly yield impressive results. However, these models are typically very slow and large (~billion parameters) and do not consider cross-channel correlations. To address this, we present Tiny Time Mixers (TTM), a significantly small model based on the lightweight TSMixer architecture. TTM marks the first success in developing fast and tiny general pre-trained models (<1M parameters), exclusively trained on public TS datasets, with effective transfer learning capabilities for forecasting. To tackle the complexity of pre-training on multiple datasets with varied temporal resolutions, we introduce several novel enhancements such as adaptive patching, dataset augmentation via downsampling, and resolution prefix tuning. Moreover, we employ a multi-level modeling strategy to effectively model channel correlations and infuse exogenous signals during fine-tuning, a crucial capability lacking in existing benchmarks. TTM shows significant accuracy gains (12-38\%) over popular benchmarks in few/zero-shot forecasting. It also drastically reduces the compute needs as compared to LLM-TS methods, with a 14X cut in learnable parameters, 106X less total parameters, and substantial reductions in fine-tuning (65X) and inference time (54X). In fact, TTM's zero-shot often surpasses the few-shot results in many popular benchmarks, highlighting the efficacy of our approach. Code and pre-trained models will be open-sourced.
翻訳日:2024-04-10 01:36:21 公開日:2024-04-06
# DiffSHEG: リアルタイム音声駆動型ホロスティック3次元表現とジェスチャ生成のための拡散に基づくアプローチ

DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation ( http://arxiv.org/abs/2401.04747v2 )

ライセンス: Link先を確認
Junming Chen, Yunfei Liu, Jianan Wang, Ailing Zeng, Yu Li, Qifeng Chen, (参考訳) 任意の長さの音声駆動型ホロスティック3次元表現とジェスチャー生成のための拡散に基づくアプローチであるDiffSHEGを提案する。 従来の研究は、共同音声ジェスチャや表現生成を個別に重視していたが、同期表現とジェスチャーの合同生成はほとんど検討されていない。 これを解決するために,我々の拡散型音声合成変換器は,表情からジェスチャーへの一方向情報の流れを可能とし,関節の表情・姿勢分布の整合性を向上させる。 さらに,拡散モデルにおける任意のロングシーケンス生成のためのアウトペイントに基づくサンプリング戦略を導入し,柔軟性と計算効率を提供する。 提案手法は,音声認識による高品質な同期表現とジェスチャー生成を実現する実用的なソリューションを提供する。 提案手法は,2つの公開データセットに基づいて,定量的かつ定性的に,最先端の性能を達成する。 さらに、ユーザスタディでは、従来のアプローチよりもDiffSHEGの方が優れていることが確認されている。 DiffSHEGは、表現的および同期的動作のリアルタイム生成を可能にすることで、デジタル人間とエンボディエージェントの開発における様々な応用の可能性を示した。

We propose DiffSHEG, a Diffusion-based approach for Speech-driven Holistic 3D Expression and Gesture generation with arbitrary length. While previous works focused on co-speech gesture or expression generation individually, the joint generation of synchronized expressions and gestures remains barely explored. To address this, our diffusion-based co-speech motion generation transformer enables uni-directional information flow from expression to gesture, facilitating improved matching of joint expression-gesture distributions. Furthermore, we introduce an outpainting-based sampling strategy for arbitrary long sequence generation in diffusion models, offering flexibility and computational efficiency. Our method provides a practical solution that produces high-quality synchronized expression and gesture generation driven by speech. Evaluated on two public datasets, our approach achieves state-of-the-art performance both quantitatively and qualitatively. Additionally, a user study confirms the superiority of DiffSHEG over prior approaches. By enabling the real-time generation of expressive and synchronized motions, DiffSHEG showcases its potential for various applications in the development of digital humans and embodied agents.
翻訳日:2024-04-10 01:36:21 公開日:2024-04-06
# 内部的一貫した記述に対するRQMの仮定の正当性としての大沢の射影間理論

Ozawa's Intersubjectivity Theorem as justification of RQM's postulate on internally consistent descriptions ( http://arxiv.org/abs/2401.06185v3 )

ライセンス: Link先を確認
Andrei Khrennikov, (参考訳) OIT(Intersubjectivity Theorem)は、量子測定理論の中で証明され、内部的に一貫した記述に基づく関係量子力学(RQM)の新しい仮定を支持する。 しかし、OITの観点からは、仮説の定式化は確率再現性の仮定によって完了するべきである

The Ozawa's Intersubjectivity Theorem (OIT) proved within quantum measurement theory supports the new postulate of relational quantum mechanics (RQM), the postulate on internally consistent descriptions. But from OIT viewpoint postulate's formulation should be completed by the assumption of probability reproducibility
翻訳日:2024-04-10 01:36:21 公開日:2024-04-06
# フォトニック量子情報処理のための低損失偏光型光ルータ

Low-Loss Polarization-Maintaining Optical Router for Photonic Quantum Information Processing ( http://arxiv.org/abs/2401.06369v2 )

ライセンス: Link先を確認
Pengfei Wang, Soyoung Baek, Keiichi Edamatsu, Fumihiro Kaneda, (参考訳) フォトニック量子アプリケーションでは、光ルータは低損失、高速、量子状態の保存を伴う単一光子を扱う必要がある。 偏光状態を維持した単一光子ルーティングは、特に量子ビットとして利用するために重要である。 ここでは、単一光子と互換性のある偏光保持型電気光学ルータを実演する。 我々のカスタム電気光学変調器はマッハ・ツェンダー干渉計の構成に埋め込まれており、各光学部品が偏光維持動作を達成している。 我々は,2-4%の損失,20dB切替消滅率,2.9nsの上昇時間,および99%の偏光プロセス忠実度を理想的なアイデンティティ操作に設定したルータの性能を観察した。

In photonic quantum applications, optical routers are required to handle single photons with low loss, high speed, and preservation of their quantum states. Single-photon routing with maintained polarization states is particularly important for utilizing them as qubits. Here, we demonstrate a polarization-maintaining electro-optic router compatible with single photons. Our custom electro-optic modulator is embedded in a configuration of a Mach-Zehnder interferometer, where each optical component achieves polarization-maintaining operation. We observe the performance of the router with 2-4% loss, 20 dB switching extinction ratio, 2.9 ns rise time, and $>$ 99% polarization process fidelity to an ideal identity operation.
翻訳日:2024-04-10 01:36:21 公開日:2024-04-06
# スティル化ラジアンス場のための幾何移動

Geometry Transfer for Stylizing Radiance Fields ( http://arxiv.org/abs/2402.00863v3 )

ライセンス: Link先を確認
Hyunyoung Jung, Seonghyeon Nam, Nikolaos Sarafianos, Sungjoo Yoo, Alexander Sorkine-Hornung, Rakesh Ranjan, (参考訳) 形状と幾何学的パターンは、様式的アイデンティティを定義するのに不可欠である。 しかし、現在の3Dスタイルの転送方式は主に色やテクスチャの転送に重点を置いており、しばしば幾何学的側面を見下ろしている。 本稿では,幾何学的変形を利用した3次元トランスファー手法であるGeometry Transferを紹介する。 この手法では、奥行きマップを用いてスタイルガイドを抽出し、その後、放射場の幾何学をスタイリングする。 さらに,3次元シーンからの幾何学的手がかりを利用して,美的表現性を高め,意図したスタイルをより正確に反映する手法を提案する。 我々の広範な実験により、幾何変換はより広範かつより表現力のあるスタイル化を可能にし、3Dスタイル転送の範囲を大きく広げることを示す。

Shape and geometric patterns are essential in defining stylistic identity. However, current 3D style transfer methods predominantly focus on transferring colors and textures, often overlooking geometric aspects. In this paper, we introduce Geometry Transfer, a novel method that leverages geometric deformation for 3D style transfer. This technique employs depth maps to extract a style guide, subsequently applied to stylize the geometry of radiance fields. Moreover, we propose new techniques that utilize geometric cues from the 3D scene, thereby enhancing aesthetic expressiveness and more accurately reflecting intended styles. Our extensive experiments show that Geometry Transfer enables a broader and more expressive range of stylizations, thereby significantly expanding the scope of 3D style transfer.
翻訳日:2024-04-10 01:26:28 公開日:2024-04-06
# ツイスト付きユニタリ$t$-群による自由量子符号

Free Quantum Codes from Twisted Unitary $t$-groups ( http://arxiv.org/abs/2402.01638v3 )

ライセンス: Link先を確認
Eric Kubischta, Ian Teixeira, (参考訳) ツイスト付きユニタリ$t$-群は、既約表現によるツイスト化の下でのユニタリ$t$-群の一般化である。 次に、Knill-Laflamme誤差補正条件に表現論法を適用し、ねじれたユニタリ$t$-群が距離$d=t+1$の量子符号に自動的に対応することを示す。 建設によって、これらのコードには多くの横断ゲートがあり、これは自然にフォールトトレラントである。

We introduce twisted unitary $t$-groups, a generalization of unitary $t$-groups under a twisting by an irreducible representation. We then apply representation theoretic methods to the Knill-Laflamme error correction conditions to show that twisted unitary $t$-groups automatically correspond to quantum codes with distance $d=t+1$. By construction these codes have many transversal gates, which are naturally fault tolerant.
翻訳日:2024-04-10 01:26:28 公開日:2024-04-06
# 外因性分布学習による因果ベイズ最適化

Causal Bayesian Optimization via Exogenous Distribution Learning ( http://arxiv.org/abs/2402.02277v4 )

ライセンス: Link先を確認
Shaogang Ren, Xiaoning Qian, (参考訳) 構造的因果モデルにおける操作対象変数の最大化は重要な問題である。 既存の因果ベイズ最適化(CBO)手法は、報酬を最大化するために因果構造を変更するハード介入に依存するか、データ生成機構を調整して目的を達成するために内在変数にアクションノードを導入するかのいずれかである。 本稿では,従来手法で期待されていた外因性変数の分布を学習するために,新しい手法を提案する。 外因性分布学習は、通常限られた観測データで訓練された代理モデルにおいて、構造化因果モデルの近似精度を向上させる。 さらに、学習した外因性分布は、既存のCBOを付加雑音モデル(ANM)を超えた一般的な因果関係に拡張する。 外因性変数のリカバリにより、ノイズや未観測の隠れ変数に対して、よりフレキシブルな事前利用が可能になります。 学習した外因性分布を利用した新しいCBO法を開発した。 異なるデータセットとアプリケーションの実験により,提案手法の利点が示された。

Maximizing a target variable as an operational objective in a structured causal model is an important problem. Existing Causal Bayesian Optimization (CBO) methods either rely on hard interventions that alter the causal structure to maximize the reward; or introduce action nodes to endogenous variables so that the data generation mechanisms are adjusted to achieve the objective. In this paper, a novel method is introduced to learn the distribution of exogenous variables, which is typically ignored or marginalized through expectation by existing methods. Exogenous distribution learning improves the approximation accuracy of structured causal models in a surrogate model that is usually trained with limited observational data. Moreover, the learned exogenous distribution extends existing CBO to general causal schemes beyond Additive Noise Models (ANM). The recovery of exogenous variables allows us to use a more flexible prior for noise or unobserved hidden variables. A new CBO method is developed by leveraging the learned exogenous distribution. Experiments on different datasets and applications show the benefits of our proposed method.
翻訳日:2024-04-10 01:16:32 公開日:2024-04-06
# VlogQA:ベトナムの音声機械読解のためのタスク,データセット,ベースラインモデル

VlogQA: Task, Dataset, and Baseline Models for Vietnamese Spoken-Based Machine Reading Comprehension ( http://arxiv.org/abs/2402.02655v2 )

ライセンス: Link先を確認
Thinh Phuoc Ngo, Khoa Tran Anh Dang, Son T. Luu, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen, (参考訳) 本稿では,機械読解タスク(MRC)のためのベトナム語コーパスの開発プロセスについて述べるとともに,実世界のデータを用いて機械読解タスクを行う際の課題と機会について考察する。 ベトナムの既存のMRCコーパスは主にウィキペディアの記事、オンライン新聞、教科書などの公式文書に焦点を当てている。 対照的に、VlogQAは10,076の質問回答ペアで構成されており、YouTubeからソースされた1,230の文書に基づく。 ベトナム語母語話者の話し言葉を自然の環境で捉えることで、ベトナム語の研究で見落とされ、コーパスはベトナム語の理解課題を読み取る上で、将来の研究に貴重な資源を提供する。 性能評価では,ベトナム語音声データに対する機械読解の大幅な進歩を示唆し,テストセットで75.34%のF1スコアを達成した。 EMに関しては、最高スコアは53.97%であり、音声ベースのコンテンツ処理の課題を反映し、さらなる改善の必要性を強調している。

This paper presents the development process of a Vietnamese spoken language corpus for machine reading comprehension (MRC) tasks and provides insights into the challenges and opportunities associated with using real-world data for machine reading comprehension tasks. The existing MRC corpora in Vietnamese mainly focus on formal written documents such as Wikipedia articles, online newspapers, or textbooks. In contrast, the VlogQA consists of 10,076 question-answer pairs based on 1,230 transcript documents sourced from YouTube -- an extensive source of user-uploaded content, covering the topics of food and travel. By capturing the spoken language of native Vietnamese speakers in natural settings, an obscure corner overlooked in Vietnamese research, the corpus provides a valuable resource for future research in reading comprehension tasks for the Vietnamese language. Regarding performance evaluation, our deep-learning models achieved the highest F1 score of 75.34% on the test set, indicating significant progress in machine reading comprehension for Vietnamese spoken language data. In terms of EM, the highest score we accomplished is 53.97%, which reflects the challenge in processing spoken-based content and highlights the need for further improvement.
翻訳日:2024-04-10 01:16:32 公開日:2024-04-06
# サイバーセキュリティの変化する風景 : リモートワークとCOVID-19がデータ漂流のトレンドに与える影響

The Shifting Landscape of Cybersecurity: The Impact of Remote Work and COVID-19 on Data Breach Trends ( http://arxiv.org/abs/2402.06650v2 )

ライセンス: Link先を確認
Murat Ozer, Yasin Kose, Mehmet Bastug, Goksel Kucukkaya, Eva Ruhsar Varlioglu, (参考訳) 本研究では、新型コロナウイルスのパンデミックがサイバーセキュリティやデータ漏洩に与える影響を調査し、リモートワークへのシフトに特に焦点をあてる。 この研究は、リモートワーク開始から2年前と2年後のデータ漏洩を分析して、トレンドを特定し、サイバーセキュリティインシデントに対する洞察を提供する。 データはモンタナ司法省のData Breachデータベースから収集され、2018年4月から2022年4月までに起きたデータ漏洩によって構成された。 この結果から,遠隔作業環境におけるサイバーセキュリティ対策のベストプラクティスが示唆された。 調査データはモンタナ州に限られているが、世界中のサイバーセキュリティ専門家に貴重な洞察を提供する。 リモートワークが進化を続けるにつれ、組織はサイバーセキュリティ戦略に適応し、警戒し続けなければなりません。

This study examines the impact of the COVID-19 pandemic on cybersecurity and data breaches, with a specific focus on the shift toward remote work. The study identifies trends and offers insights into cybersecurity incidents by analyzing data breaches two years before and two years after the start of remote work. Data was collected from the Montana Department of Justice Data Breach database and consisted of data breaches that occurred between April 2018 and April 2022. The findings inform best practices for cybersecurity preparedness in remote work environments, aiding organizations to enhance their defenses. Although the study's data is limited to Montana, it offers valuable insights for cybersecurity professionals worldwide. As remote work continues to evolve, organizations must remain adaptable and vigilant in their cybersecurity strategies.
翻訳日:2024-04-10 01:16:32 公開日:2024-04-06
# Dynamic Graph Information Bottleneck

Dynamic Graph Information Bottleneck ( http://arxiv.org/abs/2402.06716v3 )

ライセンス: Link先を確認
Haonan Yuan, Qingyun Sun, Xingcheng Fu, Cheng Ji, Jianxin Li, (参考訳) 動的グラフは、複雑な空間的特徴パターンと時間的特徴パターンを持ち、その表現学習に挑戦する現実世界に広く存在する。 動的グラフニューラルネットワーク(DGNN)は、本質的なダイナミクスを活用することで、印象的な予測能力を示している。 しかし、DGNNは限られた堅牢性を示しており、敵の攻撃を受けやすい。 本稿では、ロバストで差別的な表現を学習するための新しい動的グラフ情報ボトルネック(DGIB)フレームワークを提案する。 Information Bottleneck (IB) の原理を応用して,我々はまず,最適表現が最小満足度(MSC)条件を満たすことを提案する。 DGIBは、冗長な冗長な情報を遅延表現に保存すると共に、グラフスナップショットを通過する構造的及び特徴的情報フローを反復的に指示し、洗練する。 DGIB$_{MS}$とDGIB$_C$に分解し、DGIB$_{MS}$チャネルは最小かつ十分な表現を学習することを目的としており、DGIB$_{MS}$チャネルは予測コンセンサスを保証する。 実世界および合成動的グラフデータセットに関する大規模な実験は、リンク予測タスクにおける最先端のベースラインと比較して、DGIBの敵攻撃に対する強靭性を示す。 我々の知識を最大限に活用するために、DGIBは情報理論のIB原理に基づく動的グラフの堅牢な表現を学ぶ最初の研究である。

Dynamic Graphs widely exist in the real world, which carry complicated spatial and temporal feature patterns, challenging their representation learning. Dynamic Graph Neural Networks (DGNNs) have shown impressive predictive abilities by exploiting the intrinsic dynamics. However, DGNNs exhibit limited robustness, prone to adversarial attacks. This paper presents the novel Dynamic Graph Information Bottleneck (DGIB) framework to learn robust and discriminative representations. Leveraged by the Information Bottleneck (IB) principle, we first propose the expected optimal representations should satisfy the Minimal-Sufficient-Consensual (MSC) Condition. To compress redundant as well as conserve meritorious information into latent representation, DGIB iteratively directs and refines the structural and feature information flow passing through graph snapshots. To meet the MSC Condition, we decompose the overall IB objectives into DGIB$_{MS}$ and DGIB$_C$, in which the DGIB$_{MS}$ channel aims to learn the minimal and sufficient representations, with the DGIB$_{MS}$ channel guarantees the predictive consensus. Extensive experiments on real-world and synthetic dynamic graph datasets demonstrate the superior robustness of DGIB against adversarial attacks compared with state-of-the-art baselines in the link prediction task. To the best of our knowledge, DGIB is the first work to learn robust representations of dynamic graphs grounded in the information-theoretic IB principle.
翻訳日:2024-04-10 01:16:32 公開日:2024-04-06
# OrderBkd:再配置によるテキストバックドア攻撃

OrderBkd: Textual backdoor attack through repositioning ( http://arxiv.org/abs/2402.07689v2 )

ライセンス: Link先を確認
Irina Alekseevskaia, Konstantin Arkhipenko, (参考訳) サードパーティのデータセットと事前トレーニングされた機械学習モデルの使用は、隠れたバックドア攻撃の可能性のため、NLPシステムに脅威をもたらす。 既存の攻撃は、トークンの挿入や文パラフレージングなどのデータサンプルを毒殺することを含み、元のテキストの意味論を変更するか、検出することができる。 これまでの研究との大きな違いは、文中の2つの単語の配置をトリガーとして使うことです。 SST-2 と AG の分類データセットに対して,これらのトークンを選択するための特定の部分音声(POS)ベースのルールを設計し,適用することにより,クリーンサンプルとパープレキシティとセマンティック類似性の観点から既存攻撃よりも高い攻撃成功率を保ちながら,高い攻撃成功率を維持する。 また,オニオン防御法に対する攻撃の堅牢性を示す。 論文のコードとデータは、https://github.com/alekseevskaia/OrderBkdで取得できる。

The use of third-party datasets and pre-trained machine learning models poses a threat to NLP systems due to possibility of hidden backdoor attacks. Existing attacks involve poisoning the data samples such as insertion of tokens or sentence paraphrasing, which either alter the semantics of the original texts or can be detected. Our main difference from the previous work is that we use the reposition of a two words in a sentence as a trigger. By designing and applying specific part-of-speech (POS) based rules for selecting these tokens, we maintain high attack success rate on SST-2 and AG classification datasets while outperforming existing attacks in terms of perplexity and semantic similarity to the clean samples. In addition, we show the robustness of our attack to the ONION defense method. All the code and data for the paper can be obtained at https://github.com/alekseevskaia/OrderBkd.
翻訳日:2024-04-10 01:16:32 公開日:2024-04-06
# 組み込みシステムにおける3Dポイントクラウド処理のためのCUDAを用いたGPU上のスパース畳み込みの最適化

Optimizing Sparse Convolution on GPUs with CUDA for 3D Point Cloud Processing in Embedded Systems ( http://arxiv.org/abs/2402.07710v3 )

ライセンス: Link先を確認
Chester Luo, Kevin Lai, (参考訳) 近年、画像解析や処理などの構造化グリッドデータを含む様々な領域において、特に畳み込みニューラルネットワーク(CNN)が主流となっているディープラーニング手法の利用が著しく増加している。 しかし、LiDARと3Dセンサーの利用が多くの領域で指数関数的に増加し、3D点雲の分析の必要性が高まっている。 3次元点雲の利用は、物体認識やセグメンテーションなどの様々な用途において重要である。 写真とは対照的に、点雲は空間性を示し、正規の格子を持たないため、異なる処理と計算上の問題を引き起こす。

In recent years, there has been a significant increase in the utilization of deep learning methods, particularly convolutional neural networks (CNNs), which have emerged as the dominant approach in various domains that involve structured grid data, such as picture analysis and processing. Nevertheless, the exponential growth in the utilization of LiDAR and 3D sensors across many domains has resulted in an increased need for the analysis of 3D point clouds. The utilization of 3D point clouds is crucial in various applications, including object recognition and segmentation, as they offer a spatial depiction of things within a three-dimensional environment. In contrast to photos, point clouds exhibit sparsity and lack a regular grid, hence posing distinct processing and computational issues.
翻訳日:2024-04-10 01:16:32 公開日:2024-04-06
# YOLOv8-AM: YOLOv8 : 小児腰部骨折検出のための注意機構

YOLOv8-AM: YOLOv8 with Attention Mechanisms for Pediatric Wrist Fracture Detection ( http://arxiv.org/abs/2402.09329v3 )

ライセンス: Link先を確認
Chun-Tse Chien, Rui-Yang Ju, Kuang-Yi Chou, Enkaer Xieerke, Jen-Shiun Chiang, (参考訳) 難治性外傷や骨折は、特に骨折症例のかなりの割合を占める小児において、日常生活において頻繁に起こる。 手術の前に、外科医は患者にまずX線撮影を依頼し、放射線医の分析に基づいてそれに備える。 ニューラルネットワークの開発に伴い、You Only Look Once (YOLO)シリーズモデルがコンピュータ支援診断(CAD)として骨折検出に広く利用されている。 2023年、UltralyticsはYOLOモデルの最新バージョンを発表した。 注意機構は、モデルパフォーマンスを改善する最もホットな方法の1つです。 本研究は,本来のYOLOv8アーキテクチャにアテンション機構を組み込んだYOLOv8-AMを提案する。 具体的には、4つの注意モジュール、CBAM(Convolutional Block Attention Module)、GAM(Global Attention Mechanism)、ECA(Efficient Channel Attention)、SA(Shuffle Attention)を使用して、改良されたモデルを設計し、GRAZPEDWRI-DXデータセットでトレーニングする。 ResBlock + CBAM (ResCBAM) に基づくYOLOv8-AMモデルのIoU 50(mAP 50)の平均精度は63.6%から65.8%に向上し,SOTAの性能が向上した。 逆に、GAMを組み込んだYOLOv8-AMモデルは、mAP 50の64.2%の値を得るが、これは満足のいく拡張ではない。 したがって、ResBlockとGAMを組み合わせてResGAMを導入し、新しいYOLOv8-AMモデルを設計し、mAP 50値が65.0%に向上した。 この研究の実装コードはGitHubでhttps://github.com/RuiyangJu/Fracture_Detection_Improved_YOLOv8で公開されている。

Wrist trauma and even fractures occur frequently in daily life, particularly among children who account for a significant proportion of fracture cases. Before performing surgery, surgeons often request patients to undergo X-ray imaging first and prepare for it based on the analysis of the radiologist. With the development of neural networks, You Only Look Once (YOLO) series models have been widely used in fracture detection as computer-assisted diagnosis (CAD). In 2023, Ultralytics presented the latest version of the YOLO models, which has been employed for detecting fractures across various parts of the body. Attention mechanism is one of the hottest methods to improve the model performance. This research work proposes YOLOv8-AM, which incorporates the attention mechanism into the original YOLOv8 architecture. Specifically, we respectively employ four attention modules, Convolutional Block Attention Module (CBAM), Global Attention Mechanism (GAM), Efficient Channel Attention (ECA), and Shuffle Attention (SA), to design the improved models and train them on GRAZPEDWRI-DX dataset. Experimental results demonstrate that the mean Average Precision at IoU 50 (mAP 50) of the YOLOv8-AM model based on ResBlock + CBAM (ResCBAM) increased from 63.6% to 65.8%, which achieves the state-of-the-art (SOTA) performance. Conversely, YOLOv8-AM model incorporating GAM obtains the mAP 50 value of 64.2%, which is not a satisfactory enhancement. Therefore, we combine ResBlock and GAM, introducing ResGAM to design another new YOLOv8-AM model, whose mAP 50 value is increased to 65.0%. The implementation code for this study is available on GitHub at https://github.com/RuiyangJu/Fracture_Detection_Improved_YOLOv8.
翻訳日:2024-04-10 01:06:46 公開日:2024-04-06
# Few-shot LearningとSBERTファインチューニングによる歯の重症度評価

Dental Severity Assessment through Few-shot Learning and SBERT Fine-tuning ( http://arxiv.org/abs/2402.15755v2 )

ライセンス: Link先を確認
Mohammad Dehghani, (参考訳) 歯科疾患は人口のかなりの部分に大きな影響を与え、個人全体の健康に有害な様々な健康問題を引き起こす。 口腔医療における自動化システムの統合はますます重要になっている。 機械学習アプローチは、口腔疾患の診断における診断困難、非効率性、エラーなどの課題に対処するための実行可能なソリューションを提供する。 これらの方法は、医師が早期に疾患の予測や診断に苦慮している場合に特に有用である。 本研究では,13種類の異なる機械学習,深層学習,および大規模言語モデルを用いて,放射線学者の報告に基づいて口腔健康問題の重症度を判定した。 その結果、SBERTとMulti-Layer PerceptronモデルによるFew-shot学習は、様々な実験で他のモデルよりも優れており、94.1%の精度が最高の結果となった。 その結果、このモデルは、口腔疾患の重症度を評価するための信頼性の高いツールとして、患者がより効果的な治療を受けられるようにし、医療従事者が資源配分やリスクの高い患者の管理に関する情報決定を行うのを助けることができる。

Dental diseases have a significant impact on a considerable portion of the population, leading to various health issues that can detrimentally affect individuals' overall well-being. The integration of automated systems in oral healthcare has become increasingly crucial. Machine learning approaches offer a viable solution to address challenges such as diagnostic difficulties, inefficiencies, and errors in oral disease diagnosis. These methods prove particularly useful when physicians struggle to predict or diagnose diseases at their early stages. In this study, thirteen different machine learning, deep learning, and large language models were employed to determine the severity level of oral health issues based on radiologists' reports. The results revealed that the Few-shot learning with SBERT and Multi-Layer Perceptron model outperformed all other models across various experiments, achieving an impressive accuracy of 94.1% as the best result. Consequently, this model exhibits promise as a reliable tool for evaluating the severity of oral diseases, enabling patients to receive more effective treatment and aiding healthcare professionals in making informed decisions regarding resource allocation and the management of high-risk patients.
翻訳日:2024-04-10 00:56:58 公開日:2024-04-06
# 検出が追跡される:Point Cloud Multi-Sweepディープラーニングモデルの再検討

Detection Is Tracking: Point Cloud Multi-Sweep Deep Learning Models Revisited ( http://arxiv.org/abs/2402.15756v3 )

ライセンス: Link先を確認
Lingji Chen, (参考訳) 従来のトラッキングパラダイムは、範囲やベアリングなどの瞬時に測定を行い、時間をかけてオブジェクトトラックを生成する。 自律運転のような応用において、点雲の形でのライダー計測は通常、深層学習モデルによって実現された「仮想センサー」を通過して境界箱のような「計測」を発生させ、追跡モジュールによって吸収され、対象のトラックを生成する。 しばしば複数のライダースイープがバッファに蓄積されてマージされ、仮想センサへの入力となる。 本稿では,このような入力には既に時間情報が含まれていることを論じる。そのため,仮想センサ出力にはバッファの終端に対応する時点の瞬時値だけでなく,時間情報も含まなければならない。 特に,MULti-Sweep PAired Detector (MULSPAD) と呼ばれる深層学習モデルを提案する。 これは、一般的に使用されるライダー検出モデルにおいてかなり簡単な変更と、限界余剰処理のみによって達成されるが、結果として生じる対称性は満足している。 このようなペア検出により、初歩的なトラッカーを比較的容易に構築できるだけでなく、ペアが伝達する余分な情報を利用して、モーションモデルやオブジェクトの生死モデルの選択に堅牢な、より洗練されたトラッカーを構築することができる。 提案手法の有効性を示すWaymo Open Datasetを用いて,予備訓練および実験を行った。

Conventional tracking paradigm takes in instantaneous measurements such as range and bearing, and produces object tracks across time. In applications such as autonomous driving, lidar measurements in the form of point clouds are usually passed through a "virtual sensor" realized by a deep learning model, to produce "measurements" such as bounding boxes, which are in turn ingested by a tracking module to produce object tracks. Very often multiple lidar sweeps are accumulated in a buffer to merge and become the input to the virtual sensor. We argue in this paper that such an input already contains temporal information, and therefore the virtual sensor output should also contain temporal information, not just instantaneous values for the time corresponding to the end of the buffer. In particular, we present the deep learning model called MULti-Sweep PAired Detector (MULSPAD) that produces, for each detected object, a pair of bounding boxes at both the end time and the beginning time of the input buffer. This is achieved with fairly straightforward changes in commonly used lidar detection models, and with only marginal extra processing, but the resulting symmetry is satisfying. Such paired detections make it possible not only to construct rudimentary trackers fairly easily, but also to construct more sophisticated trackers that can exploit the extra information conveyed by the pair and be robust to choices of motion models and object birth/death models. We have conducted preliminary training and experimentation using Waymo Open Dataset, which shows the efficacy of our proposed method.
翻訳日:2024-04-10 00:56:58 公開日:2024-04-06
# 放射線・超音波・電気生理学における生信号データからの深層学習分類の可能性について

On the Feasibility of Deep Learning Classification from Raw Signal Data in Radiology, Ultrasonography and Electrophysiology ( http://arxiv.org/abs/2402.16165v2 )

ライセンス: Link先を確認
Szilard Enyedi, (参考訳) 医療画像は医療において非常に有用なツールであり、生体内を非侵襲的に覗くために様々な技術が用いられている。 放射線学におけるニューラルネットワークによる深層学習は、放射線学者コミュニティから歓迎された。 現在デプロイまたは研究されているディープラーニングソリューションのほとんどは、既に生成された医療スキャンの画像に適用され、ニューラルネットワークを使用してそのような画像の生成を支援したり、スペクトログラフ内の特定の物質マーカーを特定するために使用しています。 この論文の著者は、もしニューラルネットワークがスキャンマシンの生信号に直接トレーニングされたら、既に処理された画像よりもニュアンスな情報にアクセスでき、したがってトレーニングがより正確になる、と示唆している。 本稿では, 放射光, 超音波, 電気生理学における深層学習の主な応用について述べるとともに, 提案したニューラルネットワークが生信号を直接学習できるかどうかを論じる。

Medical imaging is a very useful tool in healthcare, various technologies being employed to non-invasively peek inside the human body. Deep learning with neural networks in radiology was welcome - albeit cautiously - by the radiologist community. Most of the currently deployed or researched deep learning solutions are applied on already generated images of medical scans, use the neural networks to aid in the generation of such images, or use them for identifying specific substance markers in spectrographs. This paper's author posits that if the neural networks were trained directly on the raw signals from the scanning machines, they would gain access to more nuanced information than from the already processed images, hence the training - and later, the inferences - would become more accurate. The paper presents the main current applications of deep learning in radiography, ultrasonography, and electrophysiology, and discusses whether the proposed neural network training directly on raw signals is feasible.
翻訳日:2024-04-10 00:56:58 公開日:2024-04-06
# DS-Agent:ケースベース推論による大規模言語モデルを活用したデータサイエンスの自動化

DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning ( http://arxiv.org/abs/2402.17453v3 )

ライセンス: Link先を確認
Siyuan Guo, Cheng Deng, Ying Wen, Hechang Chen, Yi Chang, Jun Wang, (参考訳) 本研究では,大規模言語モデル(LLM)をベースとしたエージェントが,タスク要求を理解し,最適な機械学習モデルを構築し,訓練することを目的として,データサイエンスタスクを自動化する可能性について検討する。 その成功にもかかわらず、既存のLLMエージェントは、このシナリオ内で不合理な実験計画を発生させることで妨げられている。 この目的のために, LLMエージェントとケースベース推論(CBR)を利用した新しい自動フレームワークDS-Agentを提案する。 開発段階では、DS-AgentはCBRフレームワークに従って自動イテレーションパイプラインを構築し、Kaggleから専門家の知識を柔軟に活用し、フィードバックメカニズムを通じて一貫したパフォーマンス改善を促進する。 さらにDS-Agentは、開発段階で成功したソリューションを直接コード生成に適応させるため、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装しており、LCMの基本能力に対する需要を著しく減らしている。 GPT-4を用いたDS-Agentは、開発段階では前例のない100%の成功率を達成し、デプロイ段階では、代替LLMの平均1パスレートを36%改善した。 どちらの段階でもDS-AgentはGPT-4で1ラン当たり1.60ドルと0.13ドルという最高の成績を収めている。 私たちのコードはhttps://github.com/guosyjlu/DS-Agent.comでオープンソース化されています。

In this work, we investigate the potential of large language models (LLMs) based agents to automate data science tasks, with the goal of comprehending task requirements, then building and training the best-fit machine learning models. Despite their widespread success, existing LLM agents are hindered by generating unreasonable experiment plans within this scenario. To this end, we present DS-Agent, a novel automatic framework that harnesses LLM agent and case-based reasoning (CBR). In the development stage, DS-Agent follows the CBR framework to structure an automatic iteration pipeline, which can flexibly capitalize on the expert knowledge from Kaggle, and facilitate consistent performance improvement through the feedback mechanism. Moreover, DS-Agent implements a low-resource deployment stage with a simplified CBR paradigm to adapt past successful solutions from the development stage for direct code generation, significantly reducing the demand on foundational capabilities of LLMs. Empirically, DS-Agent with GPT-4 achieves an unprecedented 100% success rate in the development stage, while attaining 36% improvement on average one pass rate across alternative LLMs in the deployment stage. In both stages, DS-Agent achieves the best rank in performance, costing \$1.60 and \$0.13 per run with GPT-4, respectively. Our code is open-sourced at https://github.com/guosyjlu/DS-Agent.
翻訳日:2024-04-10 00:56:58 公開日:2024-04-06
# ブロックチェーンベースのサプライチェーン検証によるOpenEN-RAN機器のセキュア化

Securing OPEN-RAN Equipment Using Blockchain-Based Supply Chain Verification ( http://arxiv.org/abs/2402.17632v2 )

ライセンス: Link先を確認
Ali Mehrban, Mostafa Jani, (参考訳) OPEN-RANネットワークの非集約的でマルチベンダな性質は、新たなサプライチェーンセキュリティリスクを導入し、機器の信頼性と整合性において重要な課題となっている。 製造と統合の脆弱性を軽減するためには、ロバストなソリューションが必要である。 本稿では,そのライフサイクルを通じてOPEN-RAN機器をセキュアにするための,ブロックチェーンベースの新たなアプローチを提案する。 ファームウェア認証コード、認可されたブロックチェーン台帳、機器ノードバリデータを組み合わせることで、私たちは、実績を追跡するためにタンパー耐性のエコシステムを設計します。 設計の概要は概念的ではあるが、将来の実現のための基盤とロードマップを確立している。 ファームウェアの署名したハッシュやスマートコントラクトなどのコアコンポーネントの開発,厳格なパフォーマンス評価を通じて,本論文は概念から実践へと進化することができる。 OPEN-RANサプライチェーンを安全な状態にし、さらなる研究と実世界の展開を後押しする、明確な可能性を秘めている。

The disaggregated and multi-vendor nature of OPEN-RAN networks introduces new supply chain security risks, making equipment authenticity and integrity crucial challenges. Robust solutions are needed to mitigate vulnerabilities in manufacturing and integration. This paper puts forth a novel blockchain-based approach to secure OPEN-RAN equipment through its lifecycle. By combining firmware authentication codes, a permissioned blockchain ledger, and equipment node validators, we architect a tamper-resistant ecosystem to track provenance. The outlined design, while conceptual, establishes a foundation and roadmap for future realization. Through careful implementation planning, development of core components like firmware signed hashes and smart contracts, and rigorous performance evaluation, this paper can evolve from concept to practice. There is a vivid potential to make OPEN-RAN supply chains corner to corner secure, igniting further research and real-world deployment.
翻訳日:2024-04-10 00:56:58 公開日:2024-04-06
# 経路勧告に関する調査:方法・応用・選択肢

A Survey of Route Recommendations: Methods, Applications, and Opportunities ( http://arxiv.org/abs/2403.00284v2 )

ライセンス: Link先を確認
Shiming Zhang, Zhipeng Luo, Li Yang, Fei Teng, Tianrui Li, (参考訳) 今日では、都市全体に展開される高度な情報技術によって、膨大なデータ量と強力な計算資源が、現代の都市開発をインテリジェント化している。 インテリジェント交通の重要な部分として、ルートレコメンデーションとその応用が広く使われ、市民の旅行習慣に直接影響を与えている。 ビッグデータ(おそらくマルチモーダル)に基づくスマートで効率的な旅行ルートの開発は、ルートレコメンデーション研究において中心的な課題となっている。 本調査では,都市コンピューティングに基づくルートレコメンデーション業務について概観する。 以下の3部で構成されている。 1)方法論について。 従来の機械学習と最新のディープラーニングの手法を多数分類する。 また, 歴史的関係を議論し, 最先端の進展を明らかにする。 2) Application\-wise。 本稿では,都市コンピューティングのシナリオにおける経路変換に関する新しい応用を多数提示する。 3)現在の課題と課題について論じ,将来性のある研究の方向性について検討する。 この調査は、関連研究者がルートレコメンデーション研究の現状を素早く把握し、今後の研究動向に導くのに役立つと信じている。

Nowadays, with advanced information technologies deployed citywide, large data volumes and powerful computational resources are intelligentizing modern city development. As an important part of intelligent transportation, route recommendation and its applications are widely used, directly influencing citizens` travel habits. Developing smart and efficient travel routes based on big data (possibly multi-modal) has become a central challenge in route recommendation research. Our survey offers a comprehensive review of route recommendation work based on urban computing. It is organized by the following three parts: 1) Methodology-wise. We categorize a large volume of traditional machine learning and modern deep learning methods. Also, we discuss their historical relations and reveal the edge-cutting progress. 2) Application\-wise. We present numerous novel applications related to route commendation within urban computing scenarios. 3) We discuss current problems and challenges and envision several promising research directions. We believe that this survey can help relevant researchers quickly familiarize themselves with the current state of route recommendation research and then direct them to future research trends.
翻訳日:2024-04-10 00:56:58 公開日:2024-04-06
# Diff-Plugin:拡散に基づく低レベルタスクの再現

Diff-Plugin: Revitalizing Details for Diffusion-based Low-level Tasks ( http://arxiv.org/abs/2403.00644v2 )

ライセンス: Link先を確認
Yuhao Liu, Zhanghan Ke, Fang Liu, Nanxuan Zhao, Rynson W. H. Lau, (参考訳) 大規模データセットで訓練された拡散モデルは、画像合成において顕著な進歩を遂げた。 しかし拡散過程のランダム性のため、細部保存を必要とする多様な低レベルのタスクを扱うのにしばしば苦労する。 この制限を克服するために、Diff-Pluginフレームワークを提案する。 具体的には、まず、タスク固有の事前情報を提供し、画像コンテンツを保存するための拡散プロセスを導くために、デュアルブランチ設計の軽量なTask-Pluginモジュールを提案する。 次に、テキスト命令に基づいて異なるタスクを自動選択できるプラグインセレクタを提案し、複数の低レベルタスクを自然言語で示すことで画像を編集できる。 我々は8つの低レベル視覚タスクについて広範な実験を行った。 この結果は、特に実世界のシナリオにおいて、既存の手法よりもDiff-Pluginの方が優れていることを示す。 Diff-Pluginは安定していて、スケジューリング可能で、さまざまなデータセットサイズにわたる堅牢なトレーニングをサポートしています。

Diffusion models trained on large-scale datasets have achieved remarkable progress in image synthesis. However, due to the randomness in the diffusion process, they often struggle with handling diverse low-level tasks that require details preservation. To overcome this limitation, we present a new Diff-Plugin framework to enable a single pre-trained diffusion model to generate high-fidelity results across a variety of low-level tasks. Specifically, we first propose a lightweight Task-Plugin module with a dual branch design to provide task-specific priors, guiding the diffusion process in preserving image content. We then propose a Plugin-Selector that can automatically select different Task-Plugins based on the text instruction, allowing users to edit images by indicating multiple low-level tasks with natural language. We conduct extensive experiments on 8 low-level vision tasks. The results demonstrate the superiority of Diff-Plugin over existing methods, particularly in real-world scenarios. Our ablations further validate that Diff-Plugin is stable, schedulable, and supports robust training across different dataset sizes.
翻訳日:2024-04-10 00:56:58 公開日:2024-04-06
# Polynormer: 線形時間における多項式圧縮グラフ変換器

Polynormer: Polynomial-Expressive Graph Transformer in Linear Time ( http://arxiv.org/abs/2403.01232v3 )

ライセンス: Link先を確認
Chenhui Deng, Zichao Yue, Zhiru Zhang, (参考訳) グラフトランスフォーマー(GT)は、メッセージパッシンググラフニューラルネットワーク(GNN)よりも理論的に表現力のある、有望なアーキテクチャとして登場した。 しかし、典型的なGTモデルは少なくとも2次複雑性を持つので、大きなグラフにスケールすることはできない。 最近提案された線形GTはいくつかあるが、GNNのグラフデータセットにはまだ遅れている。 GTの表現性とスケーラビリティのトレードオフのバランスをとるために,多項式表現型GTモデルであるPolynormerを提案する。 Polynormerは入力特徴の高次多項式を学習する新しいベースモデルの上に構築されている。 基本モデル置換同変を可能にするため、グラフトポロジーとノード特徴を別々に統合し、局所的および大域的等変アテンションモデルを作成する。 その結果、ポリノーマーは線形局所-言語的アテンションスキームを採用し、アテンションスコアによって係数が制御される高次同変多項式を学習する。 ポリノーマーは、数百万のノードを持つ大きなグラフを含む、13$のホモフィルとヘテロフィルのデータセットで評価されている。 我々の広範な実験結果から,Polynormerは,非線形アクティベーション関数を使わずとも,ほとんどのデータセットにおいて,最先端のGNNとGTのベースラインよりも優れていることが示された。

Graph transformers (GTs) have emerged as a promising architecture that is theoretically more expressive than message-passing graph neural networks (GNNs). However, typical GT models have at least quadratic complexity and thus cannot scale to large graphs. While there are several linear GTs recently proposed, they still lag behind GNN counterparts on several popular graph datasets, which poses a critical concern on their practical expressivity. To balance the trade-off between expressivity and scalability of GTs, we propose Polynormer, a polynomial-expressive GT model with linear complexity. Polynormer is built upon a novel base model that learns a high-degree polynomial on input features. To enable the base model permutation equivariant, we integrate it with graph topology and node features separately, resulting in local and global equivariant attention models. Consequently, Polynormer adopts a linear local-to-global attention scheme to learn high-degree equivariant polynomials whose coefficients are controlled by attention scores. Polynormer has been evaluated on $13$ homophilic and heterophilic datasets, including large graphs with millions of nodes. Our extensive experiment results show that Polynormer outperforms state-of-the-art GNN and GT baselines on most datasets, even without the use of nonlinear activation functions.
翻訳日:2024-04-10 00:56:58 公開日:2024-04-06
# 回路上のスケーラブルで一般化可能な学習のためのHop-Wiseグラフアテンション

Less is More: Hop-Wise Graph Attention for Scalable and Generalizable Learning on Circuits ( http://arxiv.org/abs/2403.01317v3 )

ライセンス: Link先を確認
Chenhui Deng, Zichao Yue, Cunxi Yu, Gokce Sarar, Ryan Carey, Rajeev Jain, Zhiru Zhang, (参考訳) グラフニューラルネットワーク(GNN)は、様々な電子設計自動化(EDA)タスクにおける回路表現の学習に人気があるが、大きなグラフに適用するとスケーラビリティの課題に直面し、新しい設計に限定的な一般化性を示す。 これらの制限は、大規模で複雑な回路問題に対処する上で実用的でない。 本研究では,回路表現をスケーラブルで一般化可能な方法で学習するための新しい注意モデルHOGAを提案する。 HOGAはまず、モデルトレーニングの前にノード毎のホップワイズ機能を計算します。 その後、ホップワイズ機能は、グラフトポロジを伴わずに異なるホップ間の重要な特徴を適応的に学習するゲート自己アテンションモジュールを通じてノード表現を生成するためにのみ使用される。 その結果、HOGAは様々な回路の様々な構造に適応し、分散的に効率的に訓練することができる。 HOGAの有効性を示すために,結果の質(QoR)予測と機能的推論という2つの代表的なEDAタスクを検討する。 実験結果は,1)論理合成後のQoR予測における従来のGNNに対する推定誤差を46.76%削減し,2)複雑な技術マッピング後のゲートレベルネットリスト上の機能ブロックを特定するため,GNNに対する推論精度を10.0%改善し,(3)計算資源の増加に伴い,HOGAのトレーニング時間はほぼ直線的に減少することを示した。

While graph neural networks (GNNs) have gained popularity for learning circuit representations in various electronic design automation (EDA) tasks, they face challenges in scalability when applied to large graphs and exhibit limited generalizability to new designs. These limitations make them less practical for addressing large-scale, complex circuit problems. In this work we propose HOGA, a novel attention-based model for learning circuit representations in a scalable and generalizable manner. HOGA first computes hop-wise features per node prior to model training. Subsequently, the hop-wise features are solely used to produce node representations through a gated self-attention module, which adaptively learns important features among different hops without involving the graph topology. As a result, HOGA is adaptive to various structures across different circuits and can be efficiently trained in a distributed manner. To demonstrate the efficacy of HOGA, we consider two representative EDA tasks: quality of results (QoR) prediction and functional reasoning. Our experimental results indicate that (1) HOGA reduces estimation error over conventional GNNs by 46.76% for predicting QoR after logic synthesis; (2) HOGA improves 10.0% reasoning accuracy over GNNs for identifying functional blocks on unseen gate-level netlists after complex technology mapping; (3) The training time for HOGA almost linearly decreases with an increase in computing resources.
翻訳日:2024-04-10 00:56:58 公開日:2024-04-06
# 一般2 LLMの電子商取引用翻訳

General2Specialized LLMs Translation for E-commerce ( http://arxiv.org/abs/2403.03689v2 )

ライセンス: Link先を確認
Kaidi Chen, Ben Chen, Dehong Gao, Huangyu Dai, Wen Jiang, Wei Ning, Shanqing Yu, Libin Yang, Xiaoyan Cai, (参考訳) 既存のニューラルネットワーク翻訳(NMT)モデルは、主に一般的なドメインでの翻訳を扱うが、Eコマースや法的文書のような特別な記述式を持つドメインを見渡す。 電子商取引を例にとると、テキストは通常、ドメイン関連の単語の量を含み、文法的な問題が多いため、現在のNTT法では性能が劣っている。 これらの問題に対処するため,我々は,電子商取引ドメインに注釈付き平行コーパスと用語対(中国語と英語のバイリンガル語)のセットを含む2つのドメイン関連リソースを収集した。 さらに,電子商取引のためのNMTモデルに1つの汎用NMTモデルを転送するために,自己コントラスト的セマンティックエンハンスメントを備えた2段階微調整パラダイム(G2ST)を提案する。 このパラダイムは、Large Language Model(LLM)に基づいたNMTモデルに使用することができる。 LLaMA, Qwen, GPT-3.5, さらには GPT-4 といった最先端 NMT モデルと比較して, G2ST アプローチの翻訳品質と堅牢性は高い。

Existing Neural Machine Translation (NMT) models mainly handle translation in the general domain, while overlooking domains with special writing formulas, such as e-commerce and legal documents. Taking e-commerce as an example, the texts usually include amounts of domain-related words and have more grammar problems, which leads to inferior performances of current NMT methods. To address these problems, we collect two domain-related resources, including a set of term pairs (aligned Chinese-English bilingual terms) and a parallel corpus annotated for the e-commerce domain. Furthermore, we propose a two-step fine-tuning paradigm (named G2ST) with self-contrastive semantic enhancement to transfer one general NMT model to the specialized NMT model for e-commerce. The paradigm can be used for the NMT models based on Large language models (LLMs). Extensive evaluations on real e-commerce titles demonstrate the superior translation quality and robustness of our G2ST approach, as compared with state-of-the-art NMT models such as LLaMA, Qwen, GPT-3.5, and even GPT-4.
翻訳日:2024-04-10 00:47:03 公開日:2024-04-06
# 分散コンピューティング 量子ユニタリ進化

Distributed computing quantum unitary evolution ( http://arxiv.org/abs/2403.06937v2 )

ライセンス: Link先を確認
Hui-hui Miao, Yuri Igorevich Ozhigov, (参考訳) 複雑な量子システムモデリングによって引き起こされる次元の呪いを解決するための分散コンピューティング手法について論じる。 キャノンのアルゴリズムの助けを借りて、量子ユニタリ進化をシミュレートする数値法の分散計算変換を実現する。 Tavis-Cummingsモデルに基づいて、スーパーコンピュータプラットフォーム上に実装された高次元量子クローズドシステムを得るために、光学キャビティに多数の原子を付加する。 異なる分散コンピューティング戦略の時間的コストと高速化の比較について論じる。

A distributed computing approach to solve the curse of dimensionality, caused by the complex quantum system modeling, is discussed. With the help of Cannon's algorithm, the distributed computing transformation of numerical method for simulating quantum unitary evolution is achieved. Based on the Tavis-Cummings model, a large number of atoms are added into the optical cavity to obtain a high-dimensional quantum closed system, implemented on the supercomputer platform. The comparison of time cost and speedup of different distributed computing strategies is discussed.
翻訳日:2024-04-10 00:47:03 公開日:2024-04-06
# 有限次元量子力学応用のスーパーコンピュータモデル

Supercomputer model of finite-dimensional quantum electrodynamics applications ( http://arxiv.org/abs/2403.07042v2 )

ライセンス: Link先を確認
Wanshun Li, Hui-hui Miao, Yuri Igorevich Ozhigov, (参考訳) 量子プロセスのスーパーコンピュータシミュレーションは、Jaynes-Cummings-HubbardモデルやTavis-Cummings-Hubbardモデルなど、有限次元空洞量子力学モデルの様々な修正によって説明される。 2つの例は水素結合の近似モデルと2次元平面上の光子運動のモデルである。

A general scheme is given for supercomputer simulation of quantum processes, which are described by various modifications of finite-dimensional cavity quantum electrodynamics models, including Jaynes-Cummings-Hubbard model and Tavis-Cummings-Hubbard model. Conclusions and recommendations are illustrated using two examples: approximate model of hydrogen bonding and model of photon motion on a two-dimensional plane.
翻訳日:2024-04-10 00:47:03 公開日:2024-04-06
# 量子コードと文字の既約生成物

Quantum Codes and Irreducible Products of Characters ( http://arxiv.org/abs/2403.08999v2 )

ライセンス: Link先を確認
Eric Kubischta, Ian Teixeira, (参考訳) 最近の論文では、ツイスト・ユニタリ・グループを1ドルで定義し、エラー検出量子コードを自動的に生成することを示した。 また、ツイストされた1$-群は文字の既約積に対応し、有限群の文字理論における計算へのコードフィンディングの問題を減少させることを示した。 文字の既約積に関する数学文献とGAP計算の組み合わせを用いて、特異なトランスバーサルゲートを持つ多くの新しい非自明な量子符号を同定する。

In a recent paper, we defined twisted unitary $1$-groups and showed that they automatically induced error-detecting quantum codes. We also showed that twisted unitary $1$-groups correspond to irreducible products of characters thereby reducing the problem of code-finding to a computation in the character theory of finite groups. Using a combination of GAP computations and results from the mathematics literature on irreducible products of characters, we identify many new non-trivial quantum codes with unusual transversal gates.
翻訳日:2024-04-10 00:47:03 公開日:2024-04-06
# Keyformer: 効率的な生成推論のためのキートークン選択によるKVキャッシュ削減

Keyformer: KV Cache Reduction through Key Tokens Selection for Efficient Generative Inference ( http://arxiv.org/abs/2403.09054v2 )

ライセンス: Link先を確認
Muhammad Adnan, Akhil Arunkumar, Gaurav Jain, Prashant J. Nair, Ilya Soloveychik, Purushotham Kamath, (参考訳) トランスフォーマーは、LLM(Large Language Models)の基盤となるアーキテクチャとして登場した。 生成言語モデルでは、推論プロセスはプロンプト処理とトークン生成の2つの主要なフェーズを含む。 計算ワークロードの大部分を構成するトークン生成は、主にベクトル行列の乗算とキーバリュー(KV)キャッシュとの相互作用を必要とする。 この位相は、メモリシステムからコンピュータユニットへの重みとKVキャッシュ値の転送のオーバーヘッドにより、メモリ帯域幅に制約される。 このメモリボトルネックは、長いコンテキストと広範なテキスト生成を必要とするアプリケーションでは特に顕著になり、これらはLLMにとってますます重要になっている。 本稿では、KVキャッシュサイズとメモリ帯域幅利用に伴う課題を軽減するために、革新的な推論時間アプローチである"Keyformer"を紹介する。 キーフォーマーは、生成推論における注意重みの約90%が「キー」トークンと呼ばれるトークンの特定のサブセットに焦点を当てているという観察を活用している。 Keyformerは、新しいスコア関数を使用してこれらの重要なトークンを識別することで、KVキャッシュ内のキートークンのみを保持する。 このアプローチは、モデル精度を損なうことなく、KVキャッシュサイズとメモリ帯域幅使用量の両方を効果的に削減する。 我々は,3つの基本モデル(GPT-J,Cerebras-GPT,MPT)にまたがってKeyformerの性能を評価する。 我々の評価は様々なタスクを包含しており、特に拡張コンテキストを含む要約や会話タスクに重点を置いている。 KVキャッシュの削減により、推論遅延を2.1倍削減し、モデルの精度を維持しながらトークン生成スループットを2.4倍改善する。

Transformers have emerged as the underpinning architecture for Large Language Models (LLMs). In generative language models, the inference process involves two primary phases: prompt processing and token generation. Token generation, which constitutes the majority of the computational workload, primarily entails vector-matrix multiplications and interactions with the Key-Value (KV) Cache. This phase is constrained by memory bandwidth due to the overhead of transferring weights and KV cache values from the memory system to the computing units. This memory bottleneck becomes particularly pronounced in applications that require long-context and extensive text generation, both of which are increasingly crucial for LLMs. This paper introduces "Keyformer", an innovative inference-time approach, to mitigate the challenges associated with KV cache size and memory bandwidth utilization. Keyformer leverages the observation that approximately 90% of the attention weight in generative inference focuses on a specific subset of tokens, referred to as "key" tokens. Keyformer retains only the key tokens in the KV cache by identifying these crucial tokens using a novel score function. This approach effectively reduces both the KV cache size and memory bandwidth usage without compromising model accuracy. We evaluate Keyformer's performance across three foundational models: GPT-J, Cerebras-GPT, and MPT, which employ various positional embedding algorithms. Our assessment encompasses a variety of tasks, with a particular emphasis on summarization and conversation tasks involving extended contexts. Keyformer's reduction of KV cache reduces inference latency by 2.1x and improves token generation throughput by 2.4x, while preserving the model's accuracy.
翻訳日:2024-04-10 00:37:15 公開日:2024-04-06
# 深層学習による読解予測の強化:臨床テキストから生体医学的概念を抽出する

Enhancing Readmission Prediction with Deep Learning: Extracting Biomedical Concepts from Clinical Texts ( http://arxiv.org/abs/2403.09722v2 )

ライセンス: Link先を確認
Rasoul Samani, Mohammad Dehghani, Fahime Shahrokh, (参考訳) 退院直後の入院患者として定義されている入院寛容は、患者の成果や医療費に影響を及ぼすため、重要な懸念事項である。 再入院リスクのある患者を特定すれば、タイムリーな介入が可能となり、再入院率と治療コストが削減される。 本研究は,EHR(Electronic Health Record)から報告テキストを排出するためのテキストマイニング技術を用いて,30日以内の患者の寛解を予測することに焦点を当てた。 この目的のために分類モデルを開発するために,様々な機械学習および深層学習手法が用いられた。 本研究の新たな側面は、BDSSモデルと主成分分析(PCA)特徴抽出を、ディープラーニングモデル入力のための前処理データに活用することである。 MIMIC-III データセットの解析により,BDSS モデルと多層パーセプトロン (MLP) を組み合わせたアプローチが,最先端の手法より優れていることが示された。 このモデルでは,94%のリコール,75%の曲線下領域を再現し,患者の寛解を予測する効果を示した。 本研究は、テキストマイニング技術と深層学習アルゴリズムを統合し、患者の成果を改善し、資源配分を最適化することにより、医療における予測モデリングの進歩に寄与する。

Hospital readmission, defined as patients being re-hospitalized shortly after discharge, is a critical concern as it impacts patient outcomes and healthcare costs. Identifying patients at risk of readmission allows for timely interventions, reducing re-hospitalization rates and overall treatment costs. This study focuses on predicting patient readmission within less than 30 days using text mining techniques applied to discharge report texts from electronic health records (EHR). Various machine learning and deep learning methods were employed to develop a classification model for this purpose. A novel aspect of this research involves leveraging the Bio-Discharge Summary Bert (BDSS) model along with principal component analysis (PCA) feature extraction to preprocess data for deep learning model input. Our analysis of the MIMIC-III dataset indicates that our approach, which combines the BDSS model with a multilayer perceptron (MLP), outperforms state-of-the-art methods. This model achieved a recall of 94% and an area under the curve (AUC) of 75%, showcasing its effectiveness in predicting patient readmissions. This study contributes to the advancement of predictive modeling in healthcare by integrating text mining techniques with deep learning algorithms to improve patient outcomes and optimize resource allocation.
翻訳日:2024-04-10 00:37:15 公開日:2024-04-06
# 障害とモニタリングにより局在したシステムにおける単一粒子波動関数の非破壊

Unscrambling of single-particle wave functions in systems localized through disorder and monitoring ( http://arxiv.org/abs/2403.10725v2 )

ライセンス: Link先を確認
Marcin Szyniszewski, (参考訳) 障害やモニタリングによる局在化-非局在化量子相転移を行うシステムでは、位相を識別し、固有の性質を明らかにすることのできるロバストな方法が不可欠である。 本研究では,局所粒子を正確に特徴付ける自由フェルミオン波動関数のスレーター決定式を求める過程,すなわち「アンスクラムリング」を解く過程を開発する。 中心となる考え方は、単一粒子波動関数のエンベロープ間の重なりを最小化すること、または等価に、各軌道の逆参加比を最大化することである。 この数値的に効率的な手法は、指数的局所化(英語版)、パワーロー局所化(英語版)、コンフォメーションクリティカル(英語版)といった異なる種類の波動関数を区別することができる。 さらに,不規則な監視自由フェルミオンを1次元に含むより困難な問題に適用し,非破壊過程が共形臨界相と局所化領域法量子Zeno相の存在を明らかにする。 本手法は粒子数保存のない自由フェルミオン系にも拡張可能であり, $\mathbb{Z}_2$-symmetric disordered monitored free fermion の位相図を推定して実演する。 その結果, 単一粒子波動関数を応用して, 観測された自由フェルミオンや乱れモデルなどのシステムにおける局在化遷移特性について, 貴重な知見を得ることが可能となった。

In systems undergoing localization-delocalization quantum phase transitions due to disorder or monitoring, there is a crucial need for robust methods capable of distinguishing phases and uncovering their intrinsic properties. In this work, we develop a process of finding a Slater determinant representation of free-fermion wave functions that accurately characterizes localized particles, a procedure we dub "unscrambling". The central idea is to minimize the overlap between envelopes of single-particle wave functions or, equivalently, to maximize the inverse participation ratio of each orbital. This numerically efficient methodology can differentiate between distinct types of wave functions: exponentially localized, power-law localized, and conformal critical, also revealing the underlying physics of these states. Furthermore, we apply this approach to a more challenging problem involving disordered monitored free fermions in one dimension, where the unscrambling process unveils the presence of a conformal critical phase and a localized area-law quantum Zeno phase. Importantly, our method can also be extended to free fermion systems without particle number conservation, which we demonstrate by estimating the phase diagram of $\mathbb{Z}_2$-symmetric disordered monitored free fermions. Our results unlock the potential of utilizing single-particle wave functions to gain valuable insights into the localization transition properties in systems such as monitored free fermions and disordered models.
翻訳日:2024-04-10 00:37:15 公開日:2024-04-06
# 大規模言語モデルを用いたソーシャルメディア上の誤情報訂正

Correcting misinformation on social media with a large language model ( http://arxiv.org/abs/2403.11169v2 )

ライセンス: Link先を確認
Xinyi Zhou, Ashish Sharma, Amy X. Zhang, Tim Althoff, (参考訳) 現実の誤報は一部正し、事実でも誤解を招くことがある。 科学と民主主義に対する大衆の信頼を損なうもので、特にソーシャルメディアでは急速に普及している。 偽情報の高品質でタイムリーな修正は、偽の信念を効果的に減らすために、その正確さを識別し、説明する。 手動修正が広く受け入れられているにもかかわらず、新しく作成された誤情報を迅速に修正し、このアプローチをスケールすることは困難である。 LLMはまた、誤報訂正を加速させる万能性を持っているが、最近の情報不足、偽コンテンツを生成する傾向、マルチモーダル情報に対処する際の制限により、それらは苦戦している。 本稿では,最新の情報へのアクセスと信頼性を付加したLCMであるMUSEを提案する。 証拠を反証や文脈として取り出すことで、MUSEはコンテンツの一部の正確さを識別し、説明します。 また、画像を記述し、マルチモーダル検索を行い、マルチモーダルコンテンツの検証と修正を行う。 ファクトチェックの専門家は、(非)誤情報を前提としないが、広範に誤った、部分的に正しい、正しいポストを含むソーシャルメディアコンテンツに対する反応を評価する。 本稿では,誤情報訂正品質の13次元について,識別精度や説明の事実性から参照の関連性,信頼性までについて検討し,評価する。 その結果,MUSEはソーシャルメディア上での誤情報に対する高品質な応答を迅速に書けるようになり,MUSEはGPT-4を37%上回り,質の高い応答も29%上回った。

Real-world misinformation can be partially correct and even factual but misleading. It undermines public trust in science and democracy, particularly on social media, where it can spread rapidly. High-quality and timely correction of misinformation that identifies and explains its (in)accuracies has been shown to effectively reduce false beliefs. Despite the wide acceptance of manual correction, it is difficult to promptly correct newly created misinformation and to scale this approach, a concern as technologies like large language models (LLMs) make misinformation easier to produce. LLMs also have versatile capabilities that could accelerate misinformation correction--however, they struggle due to a lack of recent information, a tendency to produce false content, and limitations in addressing multimodal information. We propose MUSE, an LLM augmented with access to and credibility evaluation of up-to-date information. By retrieving evidence as refutations or contexts, MUSE identifies and explains (in)accuracies in a piece of content--not presupposed to be misinformation--with references. It also describes images and conducts multimodal searches to verify and correct multimodal content. Fact-checking experts evaluate responses to social media content that are not presupposed to be (non-)misinformation but broadly include incorrect, partially correct, and correct posts, that may or may not be misleading. We propose and evaluate 13 dimensions of misinformation correction quality, ranging from the accuracy of identifications and factuality of explanations to the relevance and credibility of references. The results demonstrate MUSE's ability to promptly write high-quality responses to potential misinformation on social media--overall, MUSE outperforms GPT-4 by 37% and even high-quality responses from laypeople by 29%.
翻訳日:2024-04-10 00:37:15 公開日:2024-04-06
# 政策としての自然言語:LLMを用いた協調レベル身体制御のための推論

Natural Language as Policies: Reasoning for Coordinate-Level Embodied Control with LLMs ( http://arxiv.org/abs/2403.13801v2 )

ライセンス: Link先を確認
Yusuke Mikami, Andrew Melnik, Jun Miura, Ville Hautamäki, (参考訳) ロボットのタスク計画問題に対処するLLMによる実験結果を示す。 近年、LSMはロボットのタスク計画に応用されており、特に複雑な高レベルの命令を中レベルのポリシーコードに変換するコード生成手法を用いている。 対照的に,本手法ではタスクとシーンオブジェクトのテキスト記述を取得し,自然言語推論によるタスクプランニングを定式化し,コーディネートレベル制御コマンドを出力することにより,事前定義されたAPIによるポリシとしての中間表現コードの必要性を低減する。 提案手法はマルチモーダル・プロンプト・シュミレーション・ベンチマークを用いて評価され、自然言語推論を用いた迅速な工学実験により、その欠如よりも成功率を大幅に向上することを示した。 さらに,本手法は,ロボット工学のスキルを未知のタスクに伝達する自然言語記述の可能性を示す。 プロジェクトのWebサイト: https://natural- Language-as-policies.github.io/

We demonstrate experimental results with LLMs that address robotics task planning problems. Recently, LLMs have been applied in robotics task planning, particularly using a code generation approach that converts complex high-level instructions into mid-level policy codes. In contrast, our approach acquires text descriptions of the task and scene objects, then formulates task planning through natural language reasoning, and outputs coordinate level control commands, thus reducing the necessity for intermediate representation code as policies with pre-defined APIs. Our approach is evaluated on a multi-modal prompt simulation benchmark, demonstrating that our prompt engineering experiments with natural language reasoning significantly enhance success rates compared to its absence. Furthermore, our approach illustrates the potential for natural language descriptions to transfer robotics skills from known tasks to previously unseen tasks. The project website: https://natural-language-as-policies.github.io/
翻訳日:2024-04-10 00:37:15 公開日:2024-04-06
# MasonTigers at SemEval-2024 Task 1: An Ensemble Approach for Semantic Textual Relatedness

MasonTigers at SemEval-2024 Task 1: An Ensemble Approach for Semantic Textual Relatedness ( http://arxiv.org/abs/2403.14990v3 )

ライセンス: Link先を確認
Dhiman Goswami, Sadiya Sayara Chowdhury Puspo, Md Nishat Raihan, Al Nahian Bin Emran, Amrita Ganguly, Marcos Zampieri, (参考訳) 本稿では,SemEval-2024 Task 1 - Semantic Textual RelatednessのMasonTigersエントリについて述べる。 このタスクには、教師なし(Track A)、教師なし(Track B)、14言語にわたる言語横断(Track C)アプローチが含まれる。 MasonTigers氏は3つのトラックですべての言語に参加した2チームのうちの1つとして際立っている。 提案手法は,トラックAにおける11位から21位,トラックBにおける1位から8位,トラックCにおける5位から12位までのランク付けを達成した。

This paper presents the MasonTigers entry to the SemEval-2024 Task 1 - Semantic Textual Relatedness. The task encompasses supervised (Track A), unsupervised (Track B), and cross-lingual (Track C) approaches across 14 different languages. MasonTigers stands out as one of the two teams who participated in all languages across the three tracks. Our approaches achieved rankings ranging from 11th to 21st in Track A, from 1st to 8th in Track B, and from 5th to 12th in Track C. Adhering to the task-specific constraints, our best performing approaches utilize ensemble of statistical machine learning approaches combined with language-specific BERT based models and sentence transformers.
翻訳日:2024-04-10 00:27:26 公開日:2024-04-06
# 信頼できるAIへの旅 その1:実践的なフレームワークの探求

The Journey to Trustworthy AI- Part 1: Pursuit of Pragmatic Frameworks ( http://arxiv.org/abs/2403.15457v2 )

ライセンス: Link先を確認
Mohamad M Nasr-Azadani, Jean-Luc Chatelain, (参考訳) 本稿では,信頼に値する人工知能(TAI)とその様々な定義についてレビューする。 あらゆる社会で尊重される原則を考えると、TAIはしばしばいくつかの属性によって特徴づけられる。 我々は、TAIの代わりにResponsibleやEthical AIといった用語を使うことに反対する。 そして、混乱を明確にするために、私たちはそれらを置き去りにすることを提案します。 TAIに固有の主観性と複雑性を考えると、普遍的な枠組みの開発は不可能であると考えられる。 代わりに、フェアネス、バイアス、リスク、セキュリティ、説明可能性、信頼性といった重要な属性や特性に対処するアプローチを提唱します。 我々は、EU、中国、米国におけるイニシアチブに焦点をあてて、現在進行中の規制の状況について検討する。 我々は、地政学的理由と地理的理由に基づくAI規制の違いが、多国籍企業にとってさらなる課題となることを認識している。 我々はリスクをAI規制とTAIの中核要因とみなしている。 例えば、EU-AI法(EU-AI Act)で概説されているように、組織はAI製品のリスクレベルを評価して、それに従って行動しなければならない(あるいはリスクヘビーな罰金)。 私たちは、TAI実装のモダリティと、複数のクロスファンクショナルチームがプロセス全体に従事しているかを比較します。 したがって、TAIを実践するための残酷な力のアプローチは、その効率性と機敏さ、ムートをもたらす。 これを解決するために、当社のフレームワークであるSet-Formalize-Measure-Act(SFMA)を紹介します。 私たちのソリューションでは、TAI対応メトリクス、TAIのドライバ、ステークホルダ、ビジネス/法律要件を実際のベンチマークやテストに変換することの重要性を強調しています。 最後に、強力なAIモデルのパニックによって引き起こされる過剰な規制は、事実、TAIにも害を与える可能性がある。 GitHubのユーザアクティビティデータに基づいて、2023年には、AIオープンソースプロジェクトがコントリビュータアカウントによってトッププロジェクトに昇格した。 TAIにおけるイノベーションの実現は、オープンソースコミュニティの独立した貢献に依存している。

This paper reviews Trustworthy Artificial Intelligence (TAI) and its various definitions. Considering the principles respected in any society, TAI is often characterized by a few attributes, some of which have led to confusion in regulatory or engineering contexts. We argue against using terms such as Responsible or Ethical AI as substitutes for TAI. And to help clarify any confusion, we suggest leaving them behind. Given the subjectivity and complexity inherent in TAI, developing a universal framework is deemed infeasible. Instead, we advocate for approaches centered on addressing key attributes and properties such as fairness, bias, risk, security, explainability, and reliability. We examine the ongoing regulatory landscape, with a focus on initiatives in the EU, China, and the USA. We recognize that differences in AI regulations based on geopolitical and geographical reasons pose an additional challenge for multinational companies. We identify risk as a core factor in AI regulation and TAI. For example, as outlined in the EU-AI Act, organizations must gauge the risk level of their AI products to act accordingly (or risk hefty fines). We compare modalities of TAI implementation and how multiple cross-functional teams are engaged in the overall process. Thus, a brute force approach for enacting TAI renders its efficiency and agility, moot. To address this, we introduce our framework Set-Formalize-Measure-Act (SFMA). Our solution highlights the importance of transforming TAI-aware metrics, drivers of TAI, stakeholders, and business/legal requirements into actual benchmarks or tests. Finally, over-regulation driven by panic of powerful AI models can, in fact, harm TAI too. Based on GitHub user-activity data, in 2023, AI open-source projects rose to top projects by contributor account. Enabling innovation in TAI hinges on the independent contributions of the open-source community.
翻訳日:2024-04-10 00:27:26 公開日:2024-04-06
# FineWAVE: 自動静的解析ツールのためのバグの微粒化警告検証

FineWAVE: Fine-Grained Warning Verification of Bugs for Automated Static Analysis Tools ( http://arxiv.org/abs/2403.16032v2 )

ライセンス: Link先を確認
Han Liu, Jian Zhang, Cen Zhang, Xiaohan Zhang, Kaixuan Li, Sen Chen, Shang-Wei Lin, Yixiang Chen, Xinhua Li, Yang Liu, (参考訳) ASAT(Automated Static Analysis Tools)は、バグ検出を支援するために、時間とともに進化してきた。 しかし、過度に誤った警告は、開発者の生産性とツールへの信頼を妨げる可能性がある。 これまでの研究は、報告された警告を検証するための学習ベースの方法を探究してきた。 それでも、その粗い粒度は、個々のバグに敏感な長期的な警告や機能レベルの警告に重点を置いている。 また、手作業による機能や、効果的な学習には不十分なソースコードセマンティクスにのみ依存する。 本稿では,バグに敏感な警告をきめ細かい粒度で検証する学習ベースアプローチであるFineWAVEを提案する。 具体的には、ソースコードのマルチモーダルなセマンティクスと、ASATからの警告をキャプチャし、それらの相互関連性を強調するLSTMベースのモデルの設計を行う。 トレーニングと評価のデータ不足に対処するため,大規模な280,273件の警告データセットを収集した。 我々はFineWAVEを評価するためにデータセットについて広範な実験を行った。 その結果,F1スコア97.79\%で誤報を低減し,67.06%で実際の警報を確認できた。 さらに、FineWAVEを使用して、4つの人気のある実世界のプロジェクトで約92%の警告をフィルタリングし、手作業の最小限で25の新しいバグを発見しました。

Automated Static Analysis Tools (ASATs) have evolved over time to assist in detecting bugs. However, the excessive false warnings can impede developers' productivity and confidence in the tools. Previous research efforts have explored learning-based methods to validate the reported warnings. Nevertheless, their coarse granularity, focusing on either long-term warnings or function-level alerts, which are insensitive to individual bugs. Also, they rely on manually crafted features or solely on source code semantics, which is inadequate for effective learning. In this paper, we propose FineWAVE, a learning-based approach that verifies bug-sensitive warnings at a fine-grained granularity. Specifically, we design a novel LSTM-based model that captures multi-modal semantics of source code and warnings from ASATs and highlights their correlations with cross-attention. To tackle the data scarcity of training and evaluation, we collected a large-scale dataset of 280,273 warnings. We conducted extensive experiments on the dataset to evaluate FineWAVE. The experimental results demonstrate the effectiveness of our approach, with an F1-score of 97.79\% for reducing false alarms and 67.06% for confirming actual warnings, significantly outperforming all baselines. Moreover, we have applied our FineWAVE to filter out about 92% warnings in four popular real-world projects, and found 25 new bugs with minimal manual effort.
翻訳日:2024-04-10 00:27:26 公開日:2024-04-06
# 光伝搬による多光子量子コヒーレンスの創発

Emergence of multiphoton quantum coherence by light propagation ( http://arxiv.org/abs/2403.17201v2 )

ライセンス: Link先を確認
Jannatul Ferdous, Mingyuan Hong, Riley B. Dawkins, Fatemeh Mostafavi, Alina Oktyabrskaya, Chenglong You, Roberto de J. León-Montiel, Omar S. Magaña-Loaiza, (参考訳) 物質との相互作用による光子のコヒーレンスの量子的性質の修正は、光の量子論の中心にある。 実際、原子による光子の吸収と放出は、特徴的な量子統計的性質を持つ様々な種類の光につながる可能性がある。 そのため、異なるタイプの光は典型的には異なる光源に関連付けられている。 本稿では,自由空間における多光子系の量子コヒーレンスの変化の観測について報告する。 この驚くべき効果は、伝播における熱多光子波束の散乱によって生じる。 フォトニック系の励起モードと関連する量子ゆらぎの修正により、異なる量子コヒーレンス特性を持つ異なる光場が形成される。 注目すべきは、これらの散乱過程が、サブショットノイズ量子特性を持つ多光子系に繋がることである。 我々の観測は、エンブレマ的なファン・シッター=ゼルニケの定理の非古典的な定式化によって検証される。 我々は、線形伝播を通じてコヒーレンスの性質を改変した量子系を創出できる可能性は、様々な量子技術に劇的な影響をもたらすと信じている。

The modification of the quantum properties of coherence of photons through their interaction with matter lies at the heart of the quantum theory of light. Indeed, the absorption and emission of photons by atoms can lead to different kinds of light with characteristic quantum statistical properties. As such, different types of light are typically associated with distinct sources. Here, we report on the observation of the modification of quantum coherence of multiphoton systems in free space. This surprising effect is produced by the scattering of thermal multiphoton wavepackets upon propagation. The modification of the excitation mode of a photonic system and its associated quantum fluctuations result in the formation of different light fields with distinct quantum coherence properties. Remarkably, we show that these processes of scattering can lead to multiphoton systems with sub-shot-noise quantum properties. Our observations are validated through the nonclassical formulation of the emblematic van Cittert-Zernike theorem. We believe that the possibility of producing quantum systems with modified properties of coherence, through linear propagation, can have dramatic implications for diverse quantum technologies.
翻訳日:2024-04-10 00:27:26 公開日:2024-04-06
# ニューラルネットワークのための格子モデルの構築と強化

Grounding and Enhancing Grid-based Models for Neural Fields ( http://arxiv.org/abs/2403.20002v2 )

ライセンス: Link先を確認
Zelin Zhao, Fenglei Fan, Wenlong Liao, Junchi Yan, (参考訳) 多くの現代研究では、ニューラルネットワーク表現にグリッドベースのモデルを使用しているが、グリッドベースのモデルの体系的な分析がいまだに欠けており、これらのモデルの改善を妨げている。 そこで本研究では,グリッドモデルに関する理論的枠組みを提案する。 この枠組みは、これらのモデルの近似と一般化の挙動をグリッドベースモデル固有の特性であるグリッド接カーネル(GTK)によって決定することを示している。 提案するフレームワークは,多種多様なグリッドベースモデルの一貫した系統的解析を容易にする。 さらに、導入されたフレームワークは、Multiplicative Fourier Adaptive Grid (MulFAGrid)と呼ばれる新しいグリッドベースのモデルの開発を動機付けている。 数値解析により、MulFAGridは前者よりも低い一般化値を示し、その堅牢な一般化性能を示している。 実験により,MulFAGridは2次元画像整合,3次元符号付き距離場(SDF)再構成,新しいビュー合成など,様々なタスクにおいて最先端のパフォーマンスを実現し,表現能力の向上を図っている。 プロジェクトのWebサイトはhttps://sites.google.com/view/cvpr24-2034-submission/homeで公開されている。

Many contemporary studies utilize grid-based models for neural field representation, but a systematic analysis of grid-based models is still missing, hindering the improvement of those models. Therefore, this paper introduces a theoretical framework for grid-based models. This framework points out that these models' approximation and generalization behaviors are determined by grid tangent kernels (GTK), which are intrinsic properties of grid-based models. The proposed framework facilitates a consistent and systematic analysis of diverse grid-based models. Furthermore, the introduced framework motivates the development of a novel grid-based model named the Multiplicative Fourier Adaptive Grid (MulFAGrid). The numerical analysis demonstrates that MulFAGrid exhibits a lower generalization bound than its predecessors, indicating its robust generalization performance. Empirical studies reveal that MulFAGrid achieves state-of-the-art performance in various tasks, including 2D image fitting, 3D signed distance field (SDF) reconstruction, and novel view synthesis, demonstrating superior representation ability. The project website is available at https://sites.google.com/view/cvpr24-2034-submission/home.
翻訳日:2024-04-10 00:16:23 公開日:2024-04-06
# 異なる談話アノテーション・フレームワークにおける談話関係の自動アライメント

Automatic Alignment of Discourse Relations of Different Discourse Annotation Frameworks ( http://arxiv.org/abs/2403.20196v2 )

ライセンス: Link先を確認
Yingxue Fu, (参考訳) 既存の談話コーパスは異なるフレームワークに基づいて注釈付けされており、議論や関係、構造的制約の定義において大きな相違が見られる。 表面的な違いにもかかわらず、これらのフレームワークは談話関係に関する基本的な理解を共有している。 これらのフレームワーク間の関係は、オープンな研究課題であり、特に異なるフレームワークで使用されている関係在庫間の関係性である。 この質問をよりよく理解することは、談話理論の統合と、異なるフレームワークで注釈付けされた談話コーパスの相互運用性の実現に役立ちます。 しかしながら、談話関係在庫間の相関関係を探求する研究は、談話セグメンテーションの異なる基準によって妨げられ、専門家の知識と手作業による検査が必要とされるのが一般的である。 いくつかのセミオートマチックな手法が提案されているが、複数のフレームワークで同時に注釈付けされたコーパスに依存している。 本稿では,課題に対処するための完全自動アプローチを提案する。 具体的には、Zhang et al (2022b) が導入したラベルアンコール型コントラスト学習法を拡張し、分類作業中にラベル埋め込みを学習する。 これらの埋め込みは、異なるフレームワークの談話関係をマッピングするために使われる。 RST-DT (Carlson et al , 2001) とPDTB 3.0 (Prasad et al , 2018) について検討した。

Existing discourse corpora are annotated based on different frameworks, which show significant dissimilarities in definitions of arguments and relations and structural constraints. Despite surface differences, these frameworks share basic understandings of discourse relations. The relationship between these frameworks has been an open research question, especially the correlation between relation inventories utilized in different frameworks. Better understanding of this question is helpful for integrating discourse theories and enabling interoperability of discourse corpora annotated under different frameworks. However, studies that explore correlations between discourse relation inventories are hindered by different criteria of discourse segmentation, and expert knowledge and manual examination are typically needed. Some semi-automatic methods have been proposed, but they rely on corpora annotated in multiple frameworks in parallel. In this paper, we introduce a fully automatic approach to address the challenges. Specifically, we extend the label-anchored contrastive learning method introduced by Zhang et al. (2022b) to learn label embeddings during a classification task. These embeddings are then utilized to map discourse relations from different frameworks. We show experimental results on RST-DT (Carlson et al., 2001) and PDTB 3.0 (Prasad et al., 2018).
翻訳日:2024-04-10 00:16:23 公開日:2024-04-06
# 画像マッチングのためのクリックによるトリマップの学習

Learning Trimaps via Clicks for Image Matting ( http://arxiv.org/abs/2404.00335v2 )

ライセンス: Link先を確認
Chenyi Zhang, Yihan Hu, Henghui Ding, Humphrey Shi, Yao Zhao, Yunchao Wei, (参考訳) 画像マッチングの大幅な進歩にもかかわらず、既存のモデルは自然画像のシナリオにおいて正確な結果を得るために手書きのトリマップに大きく依存している。 しかし、トリマップを取得するプロセスには時間がかかり、ユーザフレンドリさやデバイスとの互換性が欠如している。 この依存は、すべてのトリマップベースのマット方式の実践的応用を著しく制限する。 Click2Trimapは,ユーザが最小限のクリック入力で高品質なトリマップとアルファ行列を予測できる対話型モデルである。 実ユーザの行動論理とトリマップの特徴を解析することにより,Click2Trimapは様々なシナリオにまたがって,強力な反復型3クラストレーニング戦略と専用シミュレーション関数を提案する。 合成および実世界のマッティングデータセットの定量的および定性評価は、Click2Trimapが既存のすべてのトリマップフリーマッティング手法と比較して優れた性能を示した。 特にユーザスタディにおいて、Click2Trimapは、画像あたり平均5秒で高品質なトリマップとマッチング予測を実現し、現実世界のアプリケーションにおいてその実質的な価値を示している。

Despite significant advancements in image matting, existing models heavily depend on manually-drawn trimaps for accurate results in natural image scenarios. However, the process of obtaining trimaps is time-consuming, lacking user-friendliness and device compatibility. This reliance greatly limits the practical application of all trimap-based matting methods. To address this issue, we introduce Click2Trimap, an interactive model capable of predicting high-quality trimaps and alpha mattes with minimal user click inputs. Through analyzing real users' behavioral logic and characteristics of trimaps, we successfully propose a powerful iterative three-class training strategy and a dedicated simulation function, making Click2Trimap exhibit versatility across various scenarios. Quantitative and qualitative assessments on synthetic and real-world matting datasets demonstrate Click2Trimap's superior performance compared to all existing trimap-free matting methods. Especially, in the user study, Click2Trimap achieves high-quality trimap and matting predictions in just an average of 5 seconds per image, demonstrating its substantial practical value in real-world applications.
翻訳日:2024-04-10 00:06:38 公開日:2024-04-06
# ピクセルからグラフへ:視覚言語モデルを用いたオープン語彙シーングラフ生成

From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models ( http://arxiv.org/abs/2404.00906v2 )

ライセンス: Link先を確認
Rongjie Li, Songyang Zhang, Dahua Lin, Kai Chen, Xuming He, (参考訳) シーングラフ生成(SGG)は、下流の推論タスクのための中間グラフ表現に視覚シーンを解析することを目的としている。 近年の進歩にもかかわらず、既存の手法は、新しい視覚的関係の概念を持つシーングラフを生成するのに苦労している。 この課題に対処するために、シークエンス生成に基づく新しいオープン語彙SGGフレームワークを導入する。 我々のフレームワークは、画像からグラフへの生成パラダイムを取り入れた視覚言語事前学習モデル(VLM)を活用している。 具体的には,VLMを用いた画像からテキストへの生成によってシーングラフのシーケンスを生成し,これらのシーケンスからシーングラフを構築する。 これにより、オープン語彙SGGにおけるVLMの強みを活用し、VLタスクを強化するための明示的リレーショナルモデリングをシームレスに統合する。 実験結果から,我々の設計はオープンな語彙で優れた性能を達成できるだけでなく,明示的な関係モデリング知識を通じて,下流の視覚言語タスク性能を向上させることが示唆された。

Scene graph generation (SGG) aims to parse a visual scene into an intermediate graph representation for downstream reasoning tasks. Despite recent advancements, existing methods struggle to generate scene graphs with novel visual relation concepts. To address this challenge, we introduce a new open-vocabulary SGG framework based on sequence generation. Our framework leverages vision-language pre-trained models (VLM) by incorporating an image-to-graph generation paradigm. Specifically, we generate scene graph sequences via image-to-text generation with VLM and then construct scene graphs from these sequences. By doing so, we harness the strong capabilities of VLM for open-vocabulary SGG and seamlessly integrate explicit relational modeling for enhancing the VL tasks. Experimental results demonstrate that our design not only achieves superior performance with an open vocabulary but also enhances downstream vision-language task performance through explicit relation modeling knowledge.
翻訳日:2024-04-10 00:06:38 公開日:2024-04-06
# 構造化情報事項:LLMに抽象的意味表現を取り入れたオープンドメイン対話評価の改善

Structured Information Matters: Incorporating Abstract Meaning Representation into LLMs for Improved Open-Domain Dialogue Evaluation ( http://arxiv.org/abs/2404.01129v2 )

ライセンス: Link先を確認
Bohao Yang, Kun Zhao, Chen Tang, Liang Zhan, Chenghua Lin, (参考訳) 自動オープンドメイン対話評価が注目されている。 トレーニング可能な評価指標は、正の反応とランダムに選択された負の反応で訓練され、その結果、与えられた文脈と高い内容の類似性を共有する応答により高いスコアを割り当てる傾向が生じる。 しかし、敵対的負の応答は、意味論的に異なる一方で、文脈と高い内容の類似性を持っている。 したがって、既存の評価指標は、そのような応答を評価するのに十分な堅牢性を持っておらず、その結果、人間の判断との相関が低くなる。 近年の研究では,Large Language Models (LLMs) のオープンドメイン対話評価に有効であることが示されているが,敵の否定例を効果的に扱う上での課題がまだ残っている。 本稿では,ドメイン固有言語モデル(SLM)とLLMを組み合わせた,オープンドメイン対話評価のための簡易かつ効果的なフレームワークを提案する。 SLMは、意味表現学習を強化するためのゲーティング機構を通じて、対話の抽象的意味表現(AMR)グラフ情報を明示的に組み込むことができる。 SLM と AMR グラフ情報の評価結果を LLM のプロンプトにプラグインし,テキスト内学習性能を向上させる。 オープンドメイン対話評価タスクにおける実験結果から,提案手法が最先端のベースラインよりも優れていること,特に敵対的負の応答を識別する上での優位性が確認された。 私たちのコードはhttps://github.com/Bernard-Yang/SIMAMRで利用可能です。

Automatic open-domain dialogue evaluation has attracted increasing attention. Trainable evaluation metrics are commonly trained with true positive and randomly selected negative responses, resulting in a tendency for them to assign a higher score to the responses that share higher content similarity with a given context. However, adversarial negative responses possess high content similarity with the contexts whilst being semantically different. Therefore, existing evaluation metrics are not robust enough to evaluate such responses, resulting in low correlations with human judgments. While recent studies have shown some efficacy in utilizing Large Language Models (LLMs) for open-domain dialogue evaluation, they still encounter challenges in effectively handling adversarial negative examples. In this paper, we propose a simple yet effective framework for open-domain dialogue evaluation, which combines domain-specific language models (SLMs) with LLMs. The SLMs can explicitly incorporate Abstract Meaning Representation (AMR) graph information of the dialogue through a gating mechanism for enhanced semantic representation learning. The evaluation result of SLMs and AMR graph information are plugged into the prompt of LLM, for the enhanced in-context learning performance. Experimental results on open-domain dialogue evaluation tasks demonstrate the superiority of our method compared to a wide range of state-of-the-art baselines, especially in discriminating adversarial negative responses. Our code is available at https://github.com/Bernard-Yang/SIMAMR.
翻訳日:2024-04-09 23:56:54 公開日:2024-04-06
# テンソル化RVEAを用いたGPUによる進化的多目的最適化

GPU-accelerated Evolutionary Multiobjective Optimization Using Tensorized RVEA ( http://arxiv.org/abs/2404.01159v2 )

ライセンス: Link先を確認
Zhenyu Liang, Tao Jiang, Kebin Sun, Ran Cheng, (参考訳) 進化的多目的最適化は過去数十年で顕著な進歩をみせた。 しかし、既存のアルゴリズムはしばしば、ハードウェアアクセラレーションの欠如に起因する大規模なシナリオで計算上の問題に遭遇する。 そこで本研究では,GPUアクセラレーションの進歩を生かしたTensorized Reference Vector Guided Evolutionary Algorithm(TensorRVEA)を提案する。 TensorRVEAでは、主要なデータ構造と演算子は、GPUベースの並列コンピューティングを活用するためのテンソル形式に完全に変換される。 大規模人口と問題次元を含む数値ベンチマークテストでは、TensorRVEAは一貫して高い計算性能を示し、1000$\times$スピードアップを達成している。 そして、ロボット制御タスクにおける複雑な課題に対処するために、TensorRVEAを多目的神経進化の領域に適用した。 さらに,数個のテンソル化再生演算子を変化させることで,TensorRVEAの拡張性を評価した。 実験結果は、TensorRVEAの有望なスケーラビリティと堅牢性を示している。 ソースコードはhttps://github.com/EMI-Group/tensorrvea.comで入手できる。

Evolutionary multiobjective optimization has witnessed remarkable progress during the past decades. However, existing algorithms often encounter computational challenges in large-scale scenarios, primarily attributed to the absence of hardware acceleration. In response, we introduce a Tensorized Reference Vector Guided Evolutionary Algorithm (TensorRVEA) for harnessing the advancements of GPU acceleration. In TensorRVEA, the key data structures and operators are fully transformed into tensor forms for leveraging GPU-based parallel computing. In numerical benchmark tests involving large-scale populations and problem dimensions, TensorRVEA consistently demonstrates high computational performance, achieving up to over 1000$\times$ speedups. Then, we applied TensorRVEA to the domain of multiobjective neuroevolution for addressing complex challenges in robotic control tasks. Furthermore, we assessed TensorRVEA's extensibility by altering several tensorized reproduction operators. Experimental results demonstrate promising scalability and robustness of TensorRVEA. Source codes are available at https://github.com/EMI-Group/tensorrvea.
翻訳日:2024-04-09 23:56:54 公開日:2024-04-06
# ハイパースペクトル画像分類のための共通知識埋め込み型コントラスト学習フレームワーク

A Universal Knowledge Embedded Contrastive Learning Framework for Hyperspectral Image Classification ( http://arxiv.org/abs/2404.01673v2 )

ライセンス: Link先を確認
Quanwei Liu, Yanni Dong, Tao Huang, Lefei Zhang, Bo Du, (参考訳) ハイパースペクトル画像(HSI)分類技術の研究が盛んに行われ、様々なモデルが開発されている。 しかし、これらのHSI分類モデルは、ポケットモデルと非現実的なデータセット分割方法に限られている。 前者はモデルの一般化性能を制限し、後者は分割され、膨らんだモデル評価指標が導かれる。 そこで本研究では,ポケットモデルと標準視覚バックボーン間のHSI分類モデルのギャップを埋める,教師付き・教師なし・半教師付きHSI分類のための共通知識埋め込み型コントラスト学習フレームワーク(KnowCL)を提案する。 我々は、多様なデータ表現とリアルなデータ分割を提供する一連のデータ変換および拡張技術と共に、新しいHSI処理パイプラインを提案する。 このパイプラインに基づく提案されたフレームワークは、あらゆる種類のバックボーンと互換性があり、ラベル付きおよびラベルなしのサンプルを、期待されるトレーニング時間で完全に活用することができる。 さらに,教師付き損失と教師なし損失を適応的に融合し,学習性能を向上させる新たな損失関数を設計する。 提案した新たな分類パラダイムは,HSI分類技術の探索における大きな可能性を示している。 コードはhttps://github.com/quanweiliu/KnowCLでアクセスできる。

Hyperspectral image (HSI) classification techniques have been intensively studied and a variety of models have been developed. However, these HSI classification models are confined to pocket models and unrealistic ways of datasets partitioning. The former limits the generalization performance of the model and the latter is partitioned leads to inflated model evaluation metrics, which results in plummeting model performance in the real world. Therefore, we propose a universal knowledge embedded contrastive learning framework (KnowCL) for supervised, unsupervised, and semisupervised HSI classification, which largely closes the gap of HSI classification models between pocket models and standard vision backbones. We present a new HSI processing pipeline in conjunction with a range of data transformation and augmentation techniques that provide diverse data representations and realistic data partitioning. The proposed framework based on this pipeline is compatible with all kinds of backbones and can fully exploit labeled and unlabeled samples with expected training time. Furthermore, we design a new loss function, which can adaptively fuse the supervised loss and unsupervised loss, enhancing the learning performance. This proposed new classification paradigm shows great potentials in exploring for HSI classification technology. The code can be accessed at https://github.com/quanweiliu/KnowCL.
翻訳日:2024-04-09 23:56:54 公開日:2024-04-06
# ChatGPTを用いた科学論文の調味料の感性分析:可能性バイアスと利害対立の同定

Sentiment Analysis of Citations in Scientific Articles Using ChatGPT: Identifying Potential Biases and Conflicts of Interest ( http://arxiv.org/abs/2404.01800v2 )

ライセンス: Link先を確認
Walid Hariri, (参考訳) 科学論文は、知識を推進し、研究の方向性を伝える上で重要な役割を担っている。 科学的記事を評価する上で重要な側面は引用の分析であり、引用された作品の影響と受容についての洞察を提供する。 本稿では,大規模言語モデル,特にChatGPTの科学的論文における引用の包括的感情分析における革新的利用について紹介する。 高度な自然言語処理(NLP)技術を活用することで、ChatGPTは引用のニュアンスな肯定性や否定性を識別し、引用された作品の受信と影響に関する洞察を提供する。 さらに、ChatGPTの能力は、引用に対する潜在的なバイアスや関心の対立を検出し、科学的文献評価の客観性と信頼性を高める。 本研究は,学術研究における引用分析の強化と整合性向上における人工知能(AI)を活用したツールの変容の可能性を示す。

Scientific articles play a crucial role in advancing knowledge and informing research directions. One key aspect of evaluating scientific articles is the analysis of citations, which provides insights into the impact and reception of the cited works. This article introduces the innovative use of large language models, particularly ChatGPT, for comprehensive sentiment analysis of citations within scientific articles. By leveraging advanced natural language processing (NLP) techniques, ChatGPT can discern the nuanced positivity or negativity of citations, offering insights into the reception and impact of cited works. Furthermore, ChatGPT's capabilities extend to detecting potential biases and conflicts of interest in citations, enhancing the objectivity and reliability of scientific literature evaluation. This study showcases the transformative potential of artificial intelligence (AI)-powered tools in enhancing citation analysis and promoting integrity in scholarly research.
翻訳日:2024-04-09 23:56:54 公開日:2024-04-06
# GPU加速のための拡張トポロジのテンソル化神経進化

Tensorized NeuroEvolution of Augmenting Topologies for GPU Acceleration ( http://arxiv.org/abs/2404.01817v2 )

ライセンス: Link先を確認
Lishuang Wang, Mengfei Zhao, Enyu Liu, Kebin Sun, Ran Cheng, (参考訳) 神経進化(NeuroEvolution of Augmenting Topologies、NEAT)アルゴリズムは、神経進化の分野でかなりの認知を得ている。 その効果は単純なネットワークで開始し、トポロジと重みの両方を漸進的に進化させることから導かれる。 様々な課題にまたがる能力は明らかだが、アルゴリズムの計算効率は依然として障害であり、スケーラビリティの可能性を制限している。 そこで本研究では,NEATアルゴリズムのテンソル化手法を導入し,ネットワークトポロジと関連する演算を一様テンソルに変換する手法を提案する。 この進歩は、NEATアルゴリズムを全人口にわたって並列的に実行することを容易にする。 さらに, テンソルネットは, CPPN や HyperNEAT など, テンソル化NEAT アルゴリズムとその変種を実装したライブラリである。 JAX上に構築されたTensorNEATは、自動関数ベクトル化とハードウェアアクセラレーションによる効率的な並列計算を促進する。 さらに、TensorNEATライブラリは、Gym, Brax, gymnaxなど、さまざまなベンチマーク環境をサポートしている。 Braxのさまざまなロボット制御環境の評価を通じて、TensorNEATはNEAT-Pythonのような既存の実装と比較して最大500倍のスピードアップを実現している。 ソースコードは、https://github.com/EMI-Group/tensorneat.comで入手できる。

The NeuroEvolution of Augmenting Topologies (NEAT) algorithm has received considerable recognition in the field of neuroevolution. Its effectiveness is derived from initiating with simple networks and incrementally evolving both their topologies and weights. Although its capability across various challenges is evident, the algorithm's computational efficiency remains an impediment, limiting its scalability potential. In response, this paper introduces a tensorization method for the NEAT algorithm, enabling the transformation of its diverse network topologies and associated operations into uniformly shaped tensors for computation. This advancement facilitates the execution of the NEAT algorithm in a parallelized manner across the entire population. Furthermore, we develop TensorNEAT, a library that implements the tensorized NEAT algorithm and its variants, such as CPPN and HyperNEAT. Building upon JAX, TensorNEAT promotes efficient parallel computations via automated function vectorization and hardware acceleration. Moreover, the TensorNEAT library supports various benchmark environments including Gym, Brax, and gymnax. Through evaluations across a spectrum of robotics control environments in Brax, TensorNEAT achieves up to 500x speedups compared to the existing implementations such as NEAT-Python. Source codes are available at: https://github.com/EMI-Group/tensorneat.
翻訳日:2024-04-09 23:56:54 公開日:2024-04-06
# 脆弱性検出と修復のための大規模言語モデル:文献レビューと道路前

Large Language Model for Vulnerability Detection and Repair: Literature Review and the Road Ahead ( http://arxiv.org/abs/2404.02525v2 )

ライセンス: Link先を確認
Xin Zhou, Sicong Cao, Xiaobing Sun, David Lo, (参考訳) 大規模言語モデル(LLM)の大幅な進歩により、脆弱性検出や修復を含むソフトウェア工学(SE)の様々なタスクに広く採用されている。 近年,脆弱性検出や修復作業の強化にLLMを適用する研究が盛んに行われている。 研究の関心が高まっているにもかかわらず、脆弱性の検出と修復にLLMを活用することに焦点を当てた既存の調査は存在しない。 本稿では,LSMの活用による脆弱性検出と修復の改善を目的とした手法の体系的な文献レビューを提供することにより,このギャップを埋めることを目的としている。 このレビューは、SE、AI、およびセキュリティカンファレンスおよびジャーナルをリードする研究成果を含み、21の異なる会場で発行された36の論文をカバーしている。 3つの重要な研究課題に答えることにより、(1)関連文献で用いられるLLMを要約し、(2)脆弱性検出における様々なLLM適応テクニックを分類し、(3)脆弱性修復における様々なLLM適応テクニックを分類することを目指す。 以上の結果から,既存の研究を考慮に入れた上で,課題の解決に留意すべき課題がいくつか見出された。 さらに、今後の研究に欠かせない、重要かつ重要な可能性を示すロードマップを概説した。

The significant advancements in Large Language Models (LLMs) have resulted in their widespread adoption across various tasks within Software Engineering (SE), including vulnerability detection and repair. Numerous recent studies have investigated the application of LLMs to enhance vulnerability detection and repair tasks. Despite the increasing research interest, there is currently no existing survey that focuses on the utilization of LLMs for vulnerability detection and repair. In this paper, we aim to bridge this gap by offering a systematic literature review of approaches aimed at improving vulnerability detection and repair through the utilization of LLMs. The review encompasses research work from leading SE, AI, and Security conferences and journals, covering 36 papers published at 21 distinct venues. By answering three key research questions, we aim to (1) summarize the LLMs employed in the relevant literature, (2) categorize various LLM adaptation techniques in vulnerability detection, and (3) classify various LLM adaptation techniques in vulnerability repair. Based on our findings, we have identified a series of challenges that still need to be tackled considering existing studies. Additionally, we have outlined a roadmap highlighting potential opportunities that we believe are pertinent and crucial for future research endeavors.
翻訳日:2024-04-09 23:46:55 公開日:2024-04-06
# ノベルティ検出における敵対的オートエンコーダ

Beyond the Known: Adversarial Autoencoders in Novelty Detection ( http://arxiv.org/abs/2404.04456v1 )

ライセンス: Link先を確認
Muhammad Asad, Ihsan Ullah, Ganesh Sistu, Michael G. Madden, (参考訳) ノベルティ検出では、主に不整合分布をキャプチャするトレーニングデータセットから、新しいデータポイントを不整合性(inlier)または不整合性(outlier)に分類するかどうかを判断する。 最近の手法では、一般にディープエンコーダとデコーダネットワークフレームワークを使用して再構成エラーを導出し、新しいスコアを決定するために、または1クラスの分類器の基盤としてこのエラーを用いる。 本研究では、類似のフレームワークを軽量なディープネットワークで使用し、再構成誤差を伴う確率的スコアを採用する。 提案手法は, 試料が不整分布から来るか否かを推定する。 この作品には2つの重要な貢献がある。 1つ目は、不斉分布の構造を持つ多様体を線型化することにより、新規性確率を計算することである。 これにより、確率がどのように分布しているかを解釈することができ、多様体接空間の局所座標に関連して決定することができる。 第2のコントリビューションは、ネットワークのトレーニングプロトコルを改善することです。 その結果,本手法は対象クラスを学習する上で有効であることが示唆され,いくつかのベンチマークデータセット上での最近の最先端手法よりも優れていた。

In novelty detection, the goal is to decide if a new data point should be categorized as an inlier or an outlier, given a training dataset that primarily captures the inlier distribution. Recent approaches typically use deep encoder and decoder network frameworks to derive a reconstruction error, and employ this error either to determine a novelty score, or as the basis for a one-class classifier. In this research, we use a similar framework but with a lightweight deep network, and we adopt a probabilistic score with reconstruction error. Our methodology calculates the probability of whether the sample comes from the inlier distribution or not. This work makes two key contributions. The first is that we compute the novelty probability by linearizing the manifold that holds the structure of the inlier distribution. This allows us to interpret how the probability is distributed and can be determined in relation to the local coordinates of the manifold tangent space. The second contribution is that we improve the training protocol for the network. Our results indicate that our approach is effective at learning the target class, and it outperforms recent state-of-the-art methods on several benchmark datasets.
翻訳日:2024-04-09 21:08:32 公開日:2024-04-06
# JRDB-Social: 社会集団におけるヒューマンインタラクションの文脈とダイナミクスを理解するための多面的ロボットデータセット

JRDB-Social: A Multifaceted Robotic Dataset for Understanding of Context and Dynamics of Human Interactions Within Social Groups ( http://arxiv.org/abs/2404.04458v1 )

ライセンス: Link先を確認
Simindokht Jahangard, Zhixi Cai, Shiki Wen, Hamid Rezatofighi, (参考訳) 人間の社会的行動を理解することは、コンピュータビジョンとロボット工学において不可欠である。 個々の行動のようなミクロレベルの観察は不足しており、理解を深めるためには、個人の行動、グループ内ダイナミクス、社会集団レベルを考慮する包括的なアプローチが必要である。 本稿では,JRDBの拡張であるJRDB-Socialを紹介する。 多様な屋内・屋外の社会的文脈における人間の理解のギャップを埋めるためにデザインされたJRDB-Socialは、個々の属性、グループ内相互作用、社会的グループコンテキストの3つのレベルにアノテーションを提供する。 このデータセットは、ロボットアプリケーションのための人間の社会的ダイナミクスの把握を強化することを目的としている。 最近の最先端のマルチモーダル大言語モデルを用いて、我々のベンチマークを評価し、社会的人間の振る舞いを解読する能力について検討した。

Understanding human social behaviour is crucial in computer vision and robotics. Micro-level observations like individual actions fall short, necessitating a comprehensive approach that considers individual behaviour, intra-group dynamics, and social group levels for a thorough understanding. To address dataset limitations, this paper introduces JRDB-Social, an extension of JRDB. Designed to fill gaps in human understanding across diverse indoor and outdoor social contexts, JRDB-Social provides annotations at three levels: individual attributes, intra-group interactions, and social group context. This dataset aims to enhance our grasp of human social dynamics for robotic applications. Utilizing the recent cutting-edge multi-modal large language models, we evaluated our benchmark to explore their capacity to decipher social human behaviour.
翻訳日:2024-04-09 21:08:32 公開日:2024-04-06
# 大腸内視鏡画像におけるポリープ自動分割

Automated Polyp Segmentation in Colonoscopy Images ( http://arxiv.org/abs/2404.04461v1 )

ライセンス: Link先を確認
Swagat Ranjit, Jian Zhang, Bijaya B. Karki, (参考訳) 臨床診断において癌予防に役立つ人体のポリープを見つけることが重要である。 本研究は,大腸の内視鏡像からポリープを分離するために,拡張畳み込みモジュールとクリスクロスアテンションに基づくネットワークを用いて検討する。 画像中の全画素のコンテキスト情報をより効率的に収集するために、クリッスクロスアテンションモジュールが重要な役割を果たす。 データセットから最大情報を抽出するために、データセットにデータ拡張技術を用いる。 ローテーション、フリップ、スケーリング、コントラストに加えて、より優れたモデルを作るために、さまざまな学習率を実装した。 グローバル平均プーリングは、エンコーダの重要な詳細を保存するのに役立ったResNet50に適用される。 実験では,提案アーキテクチャの性能をU-Net, DeepLabV3, PraNetなどの既存モデルと比較した。 このアーキテクチャは、不規則なポリプ形状を持つデータセットのサブセット上で、他のモデルよりも優れていた。 拡張畳み込みモジュール,RCCA,グローバル平均プールの組み合わせは不規則な形状に有効であることがわかった。 私たちのアーキテクチャでは、既存のモデルと比較して、すべてのメトリクスの平均3.75%の改善が示されています。

It is important to find the polyps in a human system that helps to prevent cancer during medical diagnosis. This research discusses using a dilated convolution module along with a criss cross attention-based network to segment polyps from the endoscopic images of the colon. To gather the context information of all pixels in an image more efficiently, criss-cross attention module has played a vital role. In order to extract maximum information from dataset, data augmentation techniques are employed in the dataset. Rotations, flips, scaling, and contrast along with varying learning rates were implemented to make a better model. Global average pooling was applied over ResNet50 that helped to store the important details of encoder. In our experiment, the proposed architecture's performance was compared with existing models like U-Net, DeepLabV3, PraNet. This architecture outperformed other models on the subset of dataset which has irregular polyp shapes. The combination of dilated convolution module, RCCA, and global average pooling was found to be effective for irregular shapes. Our architecture demonstrates an enhancement, with an average improvement of 3.75% across all metrics when compared to existing models.
翻訳日:2024-04-09 21:08:32 公開日:2024-04-06
# 人体利用の最適化による拡散モデルの調整

Aligning Diffusion Models by Optimizing Human Utility ( http://arxiv.org/abs/2404.04465v1 )

ライセンス: Link先を確認
Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Yusuke Kato, Kazuki Kozuka, (参考訳) 本稿では,テキストと画像の拡散モデルを協調する新たな手法であるDiffusion-KTOについて述べる。 この目的は各世代に独立して適用されるため、Diffusion-KTOは、コスト対の選好データを収集したり、複雑な報酬モデルを訓練する必要がない。 その代わり、私たちの目標は単純なイメージ単位のバイナリフィードバック信号、例えば、十分に利用可能な、いいね!や嫌悪(dislikes)が必要です。 Diffusion-KTOを用いた微調整の後、PickScoreやImageRewardといった自動評価指標と人間の判断の両面で、教師付き微調整や拡散拡散DPOといった既存の手法と比較して、テキスト・画像拡散モデルの方が優れた性能を示す。 全体として、Diffusion-KTOは、利用可能な画像毎のバイナリ信号を活用する可能性を解き、テキストと画像の拡散モデルと人間の好みとの整合性を広げる。

We present Diffusion-KTO, a novel approach for aligning text-to-image diffusion models by formulating the alignment objective as the maximization of expected human utility. Since this objective applies to each generation independently, Diffusion-KTO does not require collecting costly pairwise preference data nor training a complex reward model. Instead, our objective requires simple per-image binary feedback signals, e.g. likes or dislikes, which are abundantly available. After fine-tuning using Diffusion-KTO, text-to-image diffusion models exhibit superior performance compared to existing techniques, including supervised fine-tuning and Diffusion-DPO, both in terms of human judgment and automatic evaluation metrics such as PickScore and ImageReward. Overall, Diffusion-KTO unlocks the potential of leveraging readily available per-image binary signals and broadens the applicability of aligning text-to-image diffusion models with human preferences.
翻訳日:2024-04-09 21:08:32 公開日:2024-04-06
# 新興脅威に対する最新のスマートグリッドのためのサイバーセキュリティ

Cybersecurity for Modern Smart Grid against Emerging Threats ( http://arxiv.org/abs/2404.04466v1 )

ライセンス: Link先を確認
Daisuke Mashima, Yao Chen, Muhammad M. Roomi, Subhash Lakshminarayana, Deming Chen, (参考訳) Smart Gridは、デジタル通信技術を使用する電力グリッドシステムである。 電力グリッドのインフラ全体にインテリジェントなデバイスを配置し、発電から消費まで、そしてそれら間の通信を可能にすることで、効率性、信頼性、可用性を高めて、現代の電力グリッド産業に革命をもたらす。 しかし、情報通信技術への依存により、スマートグリッドは新たな脆弱性や合併症に晒され、人々の日常生活に不可欠な電気サービスの可用性と安定性に悪影響を及ぼす可能性がある。 このモノグラフの目的は、スマートグリッドのサイバーセキュリティ面に関する最新の総合的な調査とチュートリアルを提供することである。 本書は、サイバーセキュリティ問題の原因、脅威の分類、脅威を克服または緩和するための様々なアプローチの調査に焦点を当てている。 近年の最先端の研究成果と、未解決の課題をカバーしている。 このモノグラフを,この分野の研究に着手している初心者の学習教材として,また,この分野の確立した研究者にとって有用な参考資料として利用できることを願っている。

Smart Grid is a power grid system that uses digital communication technologies. By deploying intelligent devices throughout the power grid infrastructure,from power generation to consumption, and enabling communication among them, it revolutionizes the modern power grid industry with increased efficiency, reliability, and availability. However, reliance on information and communication technologies has also made the smart grids exposed to new vulnerabilities and complications that may negatively impact the availability and stability of electricity services, which are vital for people's daily lives. The purpose of this monograph is to provide an up-to-date and comprehensive survey and tutorial on the cybersecurity aspect of smart grids. The book focuses on the sources of the cybersecurity issues, the taxonomy of threats, and the survey of various approaches to overcome or mitigate such threats. It covers the state-of-the-art research results in recent years, along with remaining open challenges. We hope that this monograph can be used both as learning materials for beginners who are embarking on research in this area and as a useful reference for established researchers in this field.
翻訳日:2024-04-09 21:08:32 公開日:2024-04-06
# ブラインドネットワーク収益管理のためのプライマルダイアル最適化における需要バランス

Demand Balancing in Primal-Dual Optimization for Blind Network Revenue Management ( http://arxiv.org/abs/2404.04467v1 )

ライセンス: Link先を確認
Sentao Miao, Yining Wang, (参考訳) 本稿では,従来のネットワーク収益管理問題(NRM)を未知の非パラメトリック要求で解決する,最適理論的後悔を伴う実用的なアルゴリズムを提案する。 期間毎に、小売業者は、要求できない初期在庫を持つM$タイプのリソースに基づいて生産されるN$タイプの商品の価格を決定する必要がある。 需要がある程度の仮定で非パラメトリックな場合、Miao and Wang (2021) は$O(\text{poly}(N,M,\ln(T))\sqrt{T})$ 後悔のタイプ(特に $\tilde O(N^{3.5}\sqrt{T})$ と $o(\sqrt{T})$ の高次項を十分に大きい$T\gg N$ で提案する最初の論文である。 本稿では,より実用的であるだけでなく,高次項を含まない$\tilde O(N^{3.25}\sqrt{T})$を改良した原始双対最適化アルゴリズムを提案する。 提案アルゴリズムの主な技術的貢献はいわゆる需要バランスであり、これは資源在庫の制約に対する相補的欠陥の違反を相殺するために、各期間に一次解(すなわち価格)を他の価格と組み合わせるものである。 いくつかのベンチマークアルゴリズムと比較した数値実験により,提案アルゴリズムの有効性がさらに示された。

This paper proposes a practically efficient algorithm with optimal theoretical regret which solves the classical network revenue management (NRM) problem with unknown, nonparametric demand. Over a time horizon of length $T$, in each time period the retailer needs to decide prices of $N$ types of products which are produced based on $M$ types of resources with unreplenishable initial inventory. When demand is nonparametric with some mild assumptions, Miao and Wang (2021) is the first paper which proposes an algorithm with $O(\text{poly}(N,M,\ln(T))\sqrt{T})$ type of regret (in particular, $\tilde O(N^{3.5}\sqrt{T})$ plus additional high-order terms that are $o(\sqrt{T})$ with sufficiently large $T\gg N$). In this paper, we improve the previous result by proposing a primal-dual optimization algorithm which is not only more practical, but also with an improved regret of $\tilde O(N^{3.25}\sqrt{T})$ free from additional high-order terms. A key technical contribution of the proposed algorithm is the so-called demand balancing, which pairs the primal solution (i.e., the price) in each time period with another price to offset the violation of complementary slackness on resource inventory constraints. Numerical experiments compared with several benchmark algorithms further illustrate the effectiveness of our algorithm.
翻訳日:2024-04-09 21:08:32 公開日:2024-04-06
# Mixed-Query Transformer: 統一イメージセグメンテーションアーキテクチャ

Mixed-Query Transformer: A Unified Image Segmentation Architecture ( http://arxiv.org/abs/2404.04469v1 )

ライセンス: Link先を確認
Pei Wang, Zhaowei Cai, Hao Yang, Ashwin Swaminathan, R. Manmatha, Stefano Soatto, (参考訳) 既存の統合イメージセグメンテーションモデルは、複数のタスクにまたがる統一アーキテクチャを採用するが、各データセットに合わせた個別の重みを使用するか、複数のデータセットに1セットの重みを適用するが、1つのタスクに限定される。 本稿では,一組の重みを用いたマルチタスクおよびマルチデータセット画像セグメンテーションのための統一アーキテクチャであるMixed-Query Transformer(MQ-Former)を紹介する。 これを実現するために、ヒューリスティックな設計をすることなく、様々な種類のオブジェクトを効果的かつ動的に適応できる混合クエリ戦略を提案する。 さらに、統合アーキテクチャにより、合成マスクとキャプションによるデータ拡張を利用して、モデル一般化をさらに改善することができる。 実験によると、MQ-Formerは、競争力のある特定の最先端モデルと比較して、複数のセグメンテーションデータセットやタスクを効果的に処理できるだけでなく、オープンボキャブラリのSeginWベンチマークで以前の技術よりも7ポイント高いパフォーマンスで証明されたセグメンテーションタスクをより一般化できる。

Existing unified image segmentation models either employ a unified architecture across multiple tasks but use separate weights tailored to each dataset, or apply a single set of weights to multiple datasets but are limited to a single task. In this paper, we introduce the Mixed-Query Transformer (MQ-Former), a unified architecture for multi-task and multi-dataset image segmentation using a single set of weights. To enable this, we propose a mixed query strategy, which can effectively and dynamically accommodate different types of objects without heuristic designs. In addition, the unified architecture allows us to use data augmentation with synthetic masks and captions to further improve model generalization. Experiments demonstrate that MQ-Former can not only effectively handle multiple segmentation datasets and tasks compared to specialized state-of-the-art models with competitive performance, but also generalize better to open-set segmentation tasks, evidenced by over 7 points higher performance than the prior art on the open-vocabulary SeginW benchmark.
翻訳日:2024-04-09 21:08:32 公開日:2024-04-06
# RoNet: ローテーション指向の連続画像変換

RoNet: Rotation-oriented Continuous Image Translation ( http://arxiv.org/abs/2404.04474v1 )

ライセンス: Link先を確認
Yi Li, Xin Xie, Lina Lei, Haiyan Fu, Yanqing Guo, (参考訳) ドメイン間のスムーズで連続的な画像の生成は、最近イメージ・ツー・イメージ(I2I)翻訳において大きな注目を集めている。 線形関係は、ほとんどの既存のアプローチにおいて基本的な前提として機能し、特徴、モデル、ラベルを含む様々な側面に適用されます。 しかし、線型仮定は要素次元の増加に適合しにくく、ラインの両端を得る必要のある極限に苦しむ。 本稿では,画像のスタイル表現上での面内回転による連続生成をモデル化し,RoNetというネットワークを実現する。 生成ネットワークに回転モジュールを埋め込んで、画像の内容とスタイルを遠ざけながら、適切な平面を自動的に学習する。 現実的なテクスチャを促進するために、異なるドメインの類似オブジェクトの異なるスタイルを学ぶパッチベースのセマンティックスタイルの損失も設計する。 複雑なテクスチャが生成を非常に困難にする)、顔、街並み、およびiphone2dslrタスクについて実験を行う。 その結果,視覚的品質と連続性の観点から,本手法の優位性を検証した。

The generation of smooth and continuous images between domains has recently drawn much attention in image-to-image (I2I) translation. Linear relationship acts as the basic assumption in most existing approaches, while applied to different aspects including features, models or labels. However, the linear assumption is hard to conform with the element dimension increases and suffers from the limit that having to obtain both ends of the line. In this paper, we propose a novel rotation-oriented solution and model the continuous generation with an in-plane rotation over the style representation of an image, achieving a network named RoNet. A rotation module is implanted in the generation network to automatically learn the proper plane while disentangling the content and the style of an image. To encourage realistic texture, we also design a patch-based semantic style loss that learns the different styles of the similar object in different domains. We conduct experiments on forest scenes (where the complex texture makes the generation very challenging), faces, streetscapes and the iphone2dslr task. The results validate the superiority of our method in terms of visual quality and continuity.
翻訳日:2024-04-09 21:08:32 公開日:2024-04-06
# 長さ制御されたAlpacaEval: 自動評価器のバイアス軽減のための簡単な方法

Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators ( http://arxiv.org/abs/2404.04475v1 )

ライセンス: Link先を確認
Yann Dubois, Balázs Galambosi, Percy Liang, Tatsunori B. Hashimoto, (参考訳) LLMベースのオートアノテータは、人間による評価に比べてコスト効率とスケーラビリティのため、LLM開発プロセスの重要なコンポーネントとなっている。 しかし、これらの自動アノテーションは、取り除くのが難しい複雑なバイアスを導入することができる。 既存の自動評価指標には、より長いアウトプットを優先するといった、シンプルで既知の共同創設者が残っている。 自動評価におけるバイアスを制御するための簡単な回帰分析手法を提案する。 実ケーススタディでは、LLMを用いて応答品質を推定するチャットLLMの高速で安価なベンチマークであるAlpacaEvalの長さバイアスの低減に重点を置いている。 人間の好みと強く相関しているにもかかわらず、AlpacaEvalはより長い出力を生み出すモデルを好むことが知られている。 モデルとベースラインの出力が同じ長さなのか? これを実現するために、まず一般化された線形モデルを用いて、制御したいメディエータ(長さ差)やその他の関連する特徴に基づいて、興味のバイアス付き出力(オートアノテータ選好)を予測する。 次に,GLMを長さ差ゼロで条件付けしながら,好みを予測し,長さ制御された嗜好を得る。 また,LMSYSのChatbot Arenaとのスピアマン相関を0.94から0.98に向上させた。 コードとリーダーボードはhttps://tatsu-lab.github.io/alpaca_eval/で公開しています。

LLM-based auto-annotators have become a key component of the LLM development process due to their cost-effectiveness and scalability compared to human-based evaluation. However, these auto-annotators can introduce complex biases that are hard to remove. Even simple, known confounders such as preference for longer outputs remain in existing automated evaluation metrics. We propose a simple regression analysis approach for controlling biases in auto-evaluations. As a real case study, we focus on reducing the length bias of AlpacaEval, a fast and affordable benchmark for chat LLMs that uses LLMs to estimate response quality. Despite being highly correlated with human preferences, AlpacaEval is known to favor models that generate longer outputs. We introduce a length-controlled AlpacaEval that aims to answer the counterfactual question: "What would the preference be if the model's and baseline's output had the same length?". To achieve this, we first fit a generalized linear model to predict the biased output of interest (auto-annotator preferences) based on the mediators we want to control for (length difference) and other relevant features. We then obtain length-controlled preferences by predicting preferences while conditioning the GLM with a zero difference in lengths. Length-controlling not only improves the robustness of the metric to manipulations in model verbosity, we also find that it increases the Spearman correlation with LMSYS' Chatbot Arena from 0.94 to 0.98. We release the code and leaderboard at https://tatsu-lab.github.io/alpaca_eval/ .
翻訳日:2024-04-09 21:08:32 公開日:2024-04-06
# DELTA: 長期オンライン学習の分離

DELTA: Decoupling Long-Tailed Online Continual Learning ( http://arxiv.org/abs/2404.04476v1 )

ライセンス: Link先を確認
Siddeshwar Raghavan, Jiangpeng He, Fengqing Zhu, (参考訳) ユビキタス人工知能を実現する上で重要な課題は、データが長い尾の分布に従う現実のシナリオにおいて、モデルが新しい情報を素早く学習する能力に制限があることだ。 本研究では,LTOCL(Long-Tailed Online Continual Learning)の未探索問題について検討する。 各データは、タスクデータ分布を知らずに、トレーニングのために一度だけ観察される。 DELTAは,学習表現の強化とLTOCLの実質的不均衡に対応するために設計された非結合型学習手法である。 我々は、教師付きコントラスト学習に適応して、類似したサンプルを引きつけ、異種(クラス外)サンプルを撃退することで、学習プロセスを強化する。 さらに、等化損失を用いたトレーニング中の勾配のバランスをとることにより、DELTAは学習結果を著しく向上させ、破滅的な忘れを軽減できる。 広範に評価することで、DELTAは既存のOCL手法を超越して、インクリメンタルラーニングの能力を向上させることを示した。 この結果から,OCLを実世界のアプリケーションに適用する可能性が示唆された。

A significant challenge in achieving ubiquitous Artificial Intelligence is the limited ability of models to rapidly learn new information in real-world scenarios where data follows long-tailed distributions, all while avoiding forgetting previously acquired knowledge. In this work, we study the under-explored problem of Long-Tailed Online Continual Learning (LTOCL), which aims to learn new tasks from sequentially arriving class-imbalanced data streams. Each data is observed only once for training without knowing the task data distribution. We present DELTA, a decoupled learning approach designed to enhance learning representations and address the substantial imbalance in LTOCL. We enhance the learning process by adapting supervised contrastive learning to attract similar samples and repel dissimilar (out-of-class) samples. Further, by balancing gradients during training using an equalization loss, DELTA significantly enhances learning outcomes and successfully mitigates catastrophic forgetting. Through extensive evaluation, we demonstrate that DELTA improves the capacity for incremental learning, surpassing existing OCL methods. Our results suggest considerable promise for applying OCL in real-world applications.
翻訳日:2024-04-09 21:08:32 公開日:2024-04-06
# 拡散-RWKV:拡散モデルのためのRWKVライクなアーキテクチャ

Diffusion-RWKV: Scaling RWKV-Like Architectures for Diffusion Models ( http://arxiv.org/abs/2404.04478v1 )

ライセンス: Link先を確認
Zhengcong Fei, Mingyuan Fan, Changqian Yu, Debang Li, Junshi Huang, (参考訳) トランスフォーマーはコンピュータビジョンと自然言語処理(NLP)分野の進歩を触媒している。 しかし、計算の複雑さは、高解像度画像生成のような長いコンテキストタスクにおける応用に制限をもたらす。 本稿では,Diffusion-RWKVと呼ばれる画像生成タスクに適応する拡散モデルに適した,NLPで使用されるRWKVモデルに適応した一連のアーキテクチャを提案する。 Transformersとの拡散と同様に、我々のモデルは、追加条件で順序付けされた入力を効率的に処理すると同時に、大規模パラメータと広範囲なデータセットの両方を効率的にスケールアップするように設計されている。 その独特な利点は、空間集約の複雑さを減らし、高解像度画像の処理に非常に適しており、ウィンドウ化やグループキャッシュ操作の必要性をなくすことである。 Diffison-RWKV は FID および IS における既存の CNN や Transformer に基づく拡散モデルと同等以上の性能を達成し,計算総 FLOP の利用を著しく削減することを示した。

Transformers have catalyzed advancements in computer vision and natural language processing (NLP) fields. However, substantial computational complexity poses limitations for their application in long-context tasks, such as high-resolution image generation. This paper introduces a series of architectures adapted from the RWKV model used in the NLP, with requisite modifications tailored for diffusion model applied to image generation tasks, referred to as Diffusion-RWKV. Similar to the diffusion with Transformers, our model is designed to efficiently handle patchnified inputs in a sequence with extra conditions, while also scaling up effectively, accommodating both large-scale parameters and extensive datasets. Its distinctive advantage manifests in its reduced spatial aggregation complexity, rendering it exceptionally adept at processing high-resolution images, thereby eliminating the necessity for windowing or group cached operations. Experimental results on both condition and unconditional image generation tasks demonstrate that Diffison-RWKV achieves performance on par with or surpasses existing CNN or Transformer-based diffusion models in FID and IS metrics while significantly reducing total computation FLOP usage.
翻訳日:2024-04-09 21:08:32 公開日:2024-04-06
# 階層的部分空間展開によるクロスドメイン勧告の連成認識可能性

Joint Identifiability of Cross-Domain Recommendation via Hierarchical Subspace Disentanglement ( http://arxiv.org/abs/2404.04481v1 )

ライセンス: Link先を確認
Jing Du, Zesheng Ye, Bin Guo, Zhiwen Yu, Lina Yao, (参考訳) CDR(Cross-Domain Recommendation)はドメイン間の効果的な知識伝達を実現する。 既存の作業は、アライメントアライメントか変換ブリッジのいずれかに依存していますが、ドメイン固有の潜在要因からドメインを共有することに苦労しています。 具体的には、CDRはユーザ表現を2つのドメイン上の共同分布として記述するが、これらのメソッドは、主に特定のドメイン内の限界分布に固定するため、その共同識別性を考慮しない。 このような失敗は、2つの領域間の条件性や、それが潜在因子の非絡み合いにどのように寄与するかを見落とし、ドメインが弱相関であるときに負の移動を引き起こす。 本研究では、因果性の観点から、ドメイン間ユーザ表現に転送すべきかつすべきでないものについて検討する。 本稿では,ドメイン共有因子からドメイン固有の振舞いを保存するために,HJIDと呼ばれるクロスドメイン結合分布の結合識別可能性を探るための階層的部分空間不整合法を提案する。 HJIDは、ユーザ表現を層にまとめる: 汎用的な浅層部分空間とドメイン指向の深層部分空間。 我々はまず、初期層活性化の最大平均差を最小化することにより、浅い部分空間におけるジェネリックパターンを符号化する。 そして、ドメイン指向の潜伏因子がどのように深層活性化に符号化されているかを明らかにするために、ドメイン間の一貫性とドメイン固有のコンポーネントを識別するクロスドメイン因果関係に基づくデータ生成グラフを構築し、ミニマルチェンジの原則に固執する。 これにより、HJIDは安定性を維持しつつ、異なる領域に固有の因子を発見できる。 実世界のデータセットを用いた実験により、HJIDは強い相関と弱い相関を持つCDRタスクにおいてSOTA法よりも優れていることを示す。

Cross-Domain Recommendation (CDR) seeks to enable effective knowledge transfer across domains. Existing works rely on either representation alignment or transformation bridges, but they struggle on identifying domain-shared from domain-specific latent factors. Specifically, while CDR describes user representations as a joint distribution over two domains, these methods fail to account for its joint identifiability as they primarily fixate on the marginal distribution within a particular domain. Such a failure may overlook the conditionality between two domains and how it contributes to latent factor disentanglement, leading to negative transfer when domains are weakly correlated. In this study, we explore what should and should not be transferred in cross-domain user representations from a causality perspective. We propose a Hierarchical subspace disentanglement approach to explore the Joint IDentifiability of cross-domain joint distribution, termed HJID, to preserve domain-specific behaviors from domain-shared factors. HJID organizes user representations into layers: generic shallow subspaces and domain-oriented deep subspaces. We first encode the generic pattern in the shallow subspace by minimizing the Maximum Mean Discrepancy of initial layer activation. Then, to dissect how domain-oriented latent factors are encoded in deeper layers activation, we construct a cross-domain causality-based data generation graph, which identifies cross-domain consistent and domain-specific components, adhering to the Minimal Change principle. This allows HJID to maintain stability whilst discovering unique factors for different domains, all within a generative framework of invertible transformations that guarantee the joint identifiability. With experiments on real-world datasets, we show that HJID outperforms SOTA methods on a range of strongly and weakly correlated CDR tasks.
翻訳日:2024-04-09 21:08:32 公開日:2024-04-06
# FastHDRNet: SDR-to-HDR翻訳のための新しい効率的な方法

FastHDRNet: A new efficient method for SDR-to-HDR Translation ( http://arxiv.org/abs/2404.04483v1 )

ライセンス: Link先を確認
Siyuan Tian, Hao Wang, Yiren Rong, Junhao Wang, Renjie Dai, Zhengxiao He, (参考訳) 現代のディスプレイは、高ダイナミックレンジ(HDR)と広色域(WCG)で映像コンテンツをレンダリングする機能を持っている。 しかし、利用可能なリソースの大部分は、まだ標準動的範囲(SDR)にある。 既存のディープニューラルネットワーク(DNN)をベースとしたSDR(Standard dynamic range)からHDR(High dynamic range)への変換手法は,従来の手法よりも優れているが,実装やひどい成果物を生成するには大きすぎる。 本稿では,HDRTV変換のためのニューラルネットワーク「FastHDRNet」を提案する。 アダプティブユニバーサルカラートランスフォーメーション(Adaptive Universal Color Transformation)とローカルエンハンスメント(Local Enhancement)の2つの部分を含むこのネットワークは,グローバル統計とローカル情報を超高効率で活用する軽量ネットワークとして設計されている。 実験の結果,提案手法は,軽量な構造と改良された推論速度を用いて,定量的比較と視覚的品質の両面において,最先端の性能を達成できることが判明した。

Modern displays nowadays possess the capability to render video content with a high dynamic range (HDR) and an extensive color gamut (WCG).However, the majority of available resources are still in standard dynamic range(SDR). Therefore, we need to identify an effective methodology for this objective.The existing deep neural network (DNN) based SDR(Standard dynamic range) to HDR (High dynamic range) conversion methods outperform conventional methods, but they are either too large to implement or generate some terrible artifacts. We propose a neural network for SDRTV to HDRTV conversion, termed "FastHDRNet". This network includes two parts, Adaptive Universal Color Transformation and Local Enhancement.The architecture is designed as a lightweight network that utilizes global statistics and local information with super high efficiency. After the experiment, we find that our proposed method achieve state-of-the-art performance in both quantitative comparisons and visual quality with a lightweight structure and a enhanced infer speed.
翻訳日:2024-04-09 21:08:32 公開日:2024-04-06
# KazQAD: Kazakhのオープンドメイン質問がデータセットに回答

KazQAD: Kazakh Open-Domain Question Answering Dataset ( http://arxiv.org/abs/2404.04487v1 )

ライセンス: Link先を確認
Rustem Yeshpanov, Pavel Efimov, Leonid Boytsov, Ardak Shalkarbayuli, Pavel Braslavski, (参考訳) Kazakhのオープンドメイン質問応答(ODQA)データセットであるKazQADを紹介します。 KazQADには6000以上のユニークな質問が含まれており、短い回答が抽出され、12,000のパスレベルの関連判断が導かれる。 我々は、機械翻訳、ウィキペディア検索、および社内のマニュアルアノテーションを組み合わせて、アノテーションの効率とデータ品質を保証する。 質問は、Natural Questions (NQ)データセット(トレーニングのためのみ)から翻訳された項目と、オリジナルのKazakh Unified National Testing (UNT)試験(開発とテストのため)の2つのソースから来ている。 付随するテキストコーパスには、カザフ語版ウィキペディアから800,000通以上の節が含まれている。 補足データセットとして、機械でカザフ語に翻訳されたNQデータセットから、約61,000の質問パス回答トリプルをリリースします。 検索において妥当なスコア(NDCG@10 = 0.389 MRR = 0.382)、読解理解(EM = 38.5 F1 = 54.2)、全ODQA(EM = 17.8 F1 = 28.7)を実現する。 それにもかかわらず、これらの結果は、英語のQAコレクションの最先端結果よりもかなり低いので、改善の余地は十分にあると思います。 また、現在のOpenAIのChatGPTv3.5では、クローズドブック設定でKazQADテストの質問に答えることができません。 データセットはCreative Commons licence (CC BY-SA) のhttps://github.com/IS2AI/KazQADで無償公開されている。

We introduce KazQAD -- a Kazakh open-domain question answering (ODQA) dataset -- that can be used in both reading comprehension and full ODQA settings, as well as for information retrieval experiments. KazQAD contains just under 6,000 unique questions with extracted short answers and nearly 12,000 passage-level relevance judgements. We use a combination of machine translation, Wikipedia search, and in-house manual annotation to ensure annotation efficiency and data quality. The questions come from two sources: translated items from the Natural Questions (NQ) dataset (only for training) and the original Kazakh Unified National Testing (UNT) exam (for development and testing). The accompanying text corpus contains more than 800,000 passages from the Kazakh Wikipedia. As a supplementary dataset, we release around 61,000 question-passage-answer triples from the NQ dataset that have been machine-translated into Kazakh. We develop baseline retrievers and readers that achieve reasonable scores in retrieval (NDCG@10 = 0.389 MRR = 0.382), reading comprehension (EM = 38.5 F1 = 54.2), and full ODQA (EM = 17.8 F1 = 28.7) settings. Nevertheless, these results are substantially lower than state-of-the-art results for English QA collections, and we think that there should still be ample room for improvement. We also show that the current OpenAI's ChatGPTv3.5 is not able to answer KazQAD test questions in the closed-book setting with acceptable quality. The dataset is freely available under the Creative Commons licence (CC BY-SA) at https://github.com/IS2AI/KazQAD.
翻訳日:2024-04-09 20:58:47 公開日:2024-04-06
# フッ化物化学処理による超伝導ニオブ薄膜中の水素化物の生成とマイクロ波損失

Formation and Microwave Losses of Hydrides in Superconducting Niobium Thin Films Resulting from Fluoride Chemical Processing ( http://arxiv.org/abs/2404.04489v1 )

ライセンス: Link先を確認
Carlos G. Torres-Castanedo, Dominic P. Goronzy, Thang Pham, Anthony McFadden, Nicholas Materise, Paul Masih Das, Matthew Cheng, Dmitry Lebedev, Stephanie M. Ribet, Mitchell J. Walker, David A. Garcia-Wetten, Cameron J. Kopas, Jayss Marshall, Ella Lachman, Nikolay Zhelev, James A. Sauls, Joshua Y. Mutus, Corey Rae H. McRae, Vinayak P. Dravid, Michael J. Bedzyk, Mark C. Hersam, (参考訳) 超伝導Nb薄膜は近年,量子情報技術の活用により注目されている。 Nb薄膜の加工において、フッ化物系化学エッチング剤は、超伝導量子デバイスに悪影響を及ぼすことで知られている表面酸化物を除去するために一般的に用いられる。 しかし、これらの同じエッチング剤は水素を導入してNb水素化物を形成することができ、マイクロ波損失性能に悪影響を及ぼす可能性がある。 ここでは、フッ化物処理の機能としてNb薄膜に形成されたNb水和物の包括的特性について述べる。 特に、二次イオン質量分析、X線散乱、透過電子顕微鏡は、Nb水素化物の空間分布と相転移を明らかにする。 水素の生成速度はフッ化物溶液の酸性度とNb2O5のエッチング速度によって決定される。 その結果、Nb水素化物はNb超伝導特性に有害であり、コプラナー導波路共振器の電力非依存マイクロ波損失が増大する。 しかし、Nb水和物は2レベル系の損失や装置の老化機構と相関しない。 全体として、この研究はNb水素化物の形成とマイクロ波損失におけるそれらの役割についての洞察を与え、超伝導量子デバイスにおけるコヒーレンス時間を最大化するための継続的な取り組みを導いた。

Superconducting Nb thin films have recently attracted significant attention due to their utility for quantum information technologies. In the processing of Nb thin films, fluoride-based chemical etchants are commonly used to remove surface oxides that are known to affect superconducting quantum devices adversely. However, these same etchants can also introduce hydrogen to form Nb hydrides, potentially negatively impacting microwave loss performance. Here, we present comprehensive materials characterization of Nb hydrides formed in Nb thin films as a function of fluoride chemical treatments. In particular, secondary-ion mass spectrometry, X-ray scattering, and transmission electron microscopy reveal the spatial distribution and phase transformation of Nb hydrides. The rate of hydride formation is determined by the fluoride solution acidity and the etch rate of Nb2O5, which acts as a diffusion barrier for hydrogen into Nb. The resulting Nb hydrides are detrimental to Nb superconducting properties and lead to increased power-independent microwave loss in coplanar waveguide resonators. However, Nb hydrides do not correlate with two-level system loss or device aging mechanisms. Overall, this work provides insight into the formation of Nb hydrides and their role in microwave loss, thus guiding ongoing efforts to maximize coherence time in superconducting quantum devices.
翻訳日:2024-04-09 20:58:47 公開日:2024-04-06
# 制約付き多目的フェデレーション学習によるSecureBoostのハイパーパラメータ最適化

Hyperparameter Optimization for SecureBoost via Constrained Multi-Objective Federated Learning ( http://arxiv.org/abs/2404.04490v1 )

ライセンス: Link先を確認
Yan Kang, Ziyao Ren, Lixin Fan, Linghua Yang, Yongxin Tong, Qiang Yang, (参考訳) SecureBoostは、準同型暗号化(HE)を活用して、垂直連邦学習におけるデータのプライバシを保護するツリーブースティングアルゴリズムである。 SecureBoostとその変種は金融や医療などの分野で広く採用されている。 しかし、SecureBoostのハイパーパラメータは通常、プライバシが保護されていると仮定して、モデルパフォーマンス(すなわちユーティリティ)を最適化するためにヒューリスティックに設定される。 調査の結果、SecureBoostとその変種は、まだラベルの漏洩に弱いことが判明した。 この脆弱性は、SecureBoostの現在のヒューリスティックなハイパーパラメータ構成を、実用性、プライバシ、効率の亜最適トレードオフへと導く可能性がある。 この問題に対処するため,我々はParetoの最適解を最適化する Constrained Multi-Objective SecureBoost (CMOSB) アルゴリズムを提案する。 SecureBoostのプライバシリークを測定するために,ICA(インスタンスクラスタリング攻撃)と呼ばれる新しいラベル推論攻撃を含む3つの目的を設計する。 また、ICAに対して2つの対策を講じる。 実験により、CMOSBは、電力損失、トレーニングコスト、プライバシーリークの間のトレードオフに関して、グリッド探索やベイズ最適化によって最適化されたものよりも優れたハイパーパラメータが得られることが示された。

SecureBoost is a tree-boosting algorithm that leverages homomorphic encryption (HE) to protect data privacy in vertical federated learning. SecureBoost and its variants have been widely adopted in fields such as finance and healthcare. However, the hyperparameters of SecureBoost are typically configured heuristically for optimizing model performance (i.e., utility) solely, assuming that privacy is secured. Our study found that SecureBoost and some of its variants are still vulnerable to label leakage. This vulnerability may lead the current heuristic hyperparameter configuration of SecureBoost to a suboptimal trade-off between utility, privacy, and efficiency, which are pivotal elements toward a trustworthy federated learning system. To address this issue, we propose the Constrained Multi-Objective SecureBoost (CMOSB) algorithm, which aims to approximate Pareto optimal solutions that each solution is a set of hyperparameters achieving an optimal trade-off between utility loss, training cost, and privacy leakage. We design measurements of the three objectives, including a novel label inference attack named instance clustering attack (ICA) to measure the privacy leakage of SecureBoost. Additionally, we provide two countermeasures against ICA. The experimental results demonstrate that the CMOSB yields superior hyperparameters over those optimized by grid search and Bayesian optimization regarding the trade-off between utility loss, training cost, and privacy leakage.
翻訳日:2024-04-09 20:58:47 公開日:2024-04-06
# 混合密度ネットワークを用いたギャラクシー3次元形状復元

Galaxy 3D Shape Recovery using Mixture Density Network ( http://arxiv.org/abs/2404.04491v1 )

ライセンス: Link先を確認
Suk Yee Yong, K. E. Harborne, Caroline Foster, Robert Bassett, Gregory B. Poole, Mitchell Cavanagh, (参考訳) 世紀の変わり目以降、天文学者は銀河の内在的な3次元の形状を復元するために、恒星のキネマティックマップとイメージングを組み合わせることで得られる豊富な情報を利用してきた。 共通の内在的形状回復法は、運動軸と形態軸の内在的不整合と三軸性パラメータとの間に期待される単調な関係に依存する。 しかし、近年の研究では、形状と内在的な運動的不整合に関する基礎的な仮定に疑問が投げかけられている。 本研究では, 混合密度ネットワーク (MDN) を用いた教師付き機械学習手法を用いて, 個々の銀河の3次元形状を, 投射された恒星キネマティックおよびフラックス分布を用いて復元することを目的とする。 EAGLE流体力学宇宙シミュレーションのモックデータセットを用いて、MDNモデルを慎重に選択した一般的な運動パラメータと測光パラメータの集合に対して訓練する。 従来の手法と比較して、MDNモデルで達成された潜在的な改善は、不確実性、特にプロラト系と三軸系の3次元銀河の形状を復元するものである。 我々は、現在および将来の積分場分光銀河探査に関連する銀河固有形状の復元を特に推奨する。

Since the turn of the century, astronomers have been exploiting the rich information afforded by combining stellar kinematic maps and imaging in an attempt to recover the intrinsic, three-dimensional (3D) shape of a galaxy. A common intrinsic shape recovery method relies on an expected monotonic relationship between the intrinsic misalignment of the kinematic and morphological axes and the triaxiality parameter. Recent studies have, however, cast doubt about underlying assumptions relating shape and intrinsic kinematic misalignment. In this work, we aim to recover the 3D shape of individual galaxies using their projected stellar kinematic and flux distributions using a supervised machine learning approach with mixture density network (MDN). Using a mock dataset of the EAGLE hydrodynamical cosmological simulation, we train the MDN model for a carefully selected set of common kinematic and photometric parameters. Compared to previous methods, we demonstrate potential improvements achieved with the MDN model to retrieve the 3D galaxy shape along with the uncertainties, especially for prolate and triaxial systems. We make specific recommendations for recovering galaxy intrinsic shapes relevant for current and future integral field spectroscopic galaxy surveys.
翻訳日:2024-04-09 20:58:47 公開日:2024-04-06
# SLAM技術に基づく車線変化予測と環境認識

Automated Lane Change Behavior Prediction and Environmental Perception Based on SLAM Technology ( http://arxiv.org/abs/2404.04492v1 )

ライセンス: Link先を確認
Han Lei, Baoming Wang, Zuwei Shui, Peiyuan Yang, Penghao Liang, (参考訳) 自動走行システムにおけるカメラ、レーダー等の環境認識センサに加えて、車両の外部環境も認識され、実際にはシステム、すなわち位置決めモジュールに静かに集中した知覚センサも存在する。 本稿では,自動車線変更行動予測と環境認識の文脈におけるSLAM(Simultaneous Localization and Mapping)技術の適用について検討する。 従来の位置決め手法の限界について議論し、SLAM技術を導入し、LIDAR SLAMと視覚SLAMを比較した。 Tesla、Waymo、Mobileyeといった企業の実例では、自律運転システムにおけるAI駆動技術、センサー融合、SLAMの統合が紹介されている。 次に、SLAMアルゴリズム、センサー技術、および運転安全性と効率性における自動車線変更の重要性について検討した。 SLAM技術を使用した自動車線変更機能を組み込んだ、TeslaのAutopilotシステムのアップデートを強調している。 この論文は、自動運転車の正確な環境認識、位置決め、意思決定を可能にすることにおけるSLAMの重要な役割を強調し、究極的には安全性と運転経験を高めている。

In addition to environmental perception sensors such as cameras, radars, etc. in the automatic driving system, the external environment of the vehicle is perceived, in fact, there is also a perception sensor that has been silently dedicated in the system, that is, the positioning module. This paper explores the application of SLAM (Simultaneous Localization and Mapping) technology in the context of automatic lane change behavior prediction and environment perception for autonomous vehicles. It discusses the limitations of traditional positioning methods, introduces SLAM technology, and compares LIDAR SLAM with visual SLAM. Real-world examples from companies like Tesla, Waymo, and Mobileye showcase the integration of AI-driven technologies, sensor fusion, and SLAM in autonomous driving systems. The paper then delves into the specifics of SLAM algorithms, sensor technologies, and the importance of automatic lane changes in driving safety and efficiency. It highlights Tesla's recent update to its Autopilot system, which incorporates automatic lane change functionality using SLAM technology. The paper concludes by emphasizing the crucial role of SLAM in enabling accurate environment perception, positioning, and decision-making for autonomous vehicles, ultimately enhancing safety and driving experience.
翻訳日:2024-04-09 20:58:47 公開日:2024-04-06
# コード表現の強化によるグラフニューラルネットによる障害位置推定の改善に向けて

Towards Better Graph Neural Neural Network-based Fault Localization Through Enhanced Code Representation ( http://arxiv.org/abs/2404.04496v1 )

ライセンス: Link先を確認
Md Nakhla Rafi, Dong Jae Kim, An Ran Chen, Tse-Hsun Chen, Shaowei Wang, (参考訳) 自動ソフトウェアフォールトローカライゼーションは、デバッグを容易にするために故障箇所をピンポイントすることで、ソフトウェア品質保証において重要な役割を果たす。 広く使われている手法であるカバレッジベースのフォールトローカライゼーションでは、被疑点スコアに基づいたコードランク付けにカバレッジスペクトルの統計を用いる。 しかし、統計的アプローチの剛性は、学習に基づく技術を要求する。 中でもグラフニューラルネットワーク(GNN)に基づくグラフニューラルネットワーク(Grace)は,特徴表現を圧縮する他の学習手法の制限を緩和する,厳密な抽象構文強化グラフ表現として,テストとソースのカバレッジ関係を保存する能力によって,最先端技術を実現している。 しかし、そのような表現は、ソフトウェアと関連するカバレッジスペクトルとASTグラフの複雑さの増大によりスケーラビリティに苦慮している。 本研究では,ノードやエッジにおけるグラフ表現の複雑さを70%削減する新しいグラフ表現であるDepGraphを提案する。 さらに,属性としてグラフ内のコード変更情報などの付加的機能を統合し,そのモデルが豊富な歴史的プロジェクトデータを活用できるようにする。 Defects4j 2.0.0を用いてDepGraphを評価し,Top-1における20%以上の障害の所在と平均一位と平均平均ランク(MAR)を50%以上改善し,GPUメモリ使用率を44%削減し,トレーニング/推論時間を85%向上させた。 さらに、クロスプロジェクト環境では、DepGraphは最先端のベースラインを超え、Top-1の精度が42%、MFRとMARが68%、MARが65%向上している。 我々の研究は、DepGraphの堅牢性、最先端の精度、将来の拡張と採用のためのスケーラビリティを実証する。

Automatic software fault localization plays an important role in software quality assurance by pinpointing faulty locations for easier debugging. Coverage-based fault localization, a widely used technique, employs statistics on coverage spectra to rank code based on suspiciousness scores. However, the rigidity of statistical approaches calls for learning-based techniques. Amongst all, Grace, a graph-neural network (GNN) based technique has achieved state-of-the-art due to its capacity to preserve coverage spectra, i.e., test-to-source coverage relationships, as precise abstract syntax-enhanced graph representation, mitigating the limitation of other learning-based technique which compresses the feature representation. However, such representation struggles with scalability due to the increasing complexity of software and associated coverage spectra and AST graphs. In this work, we proposed a new graph representation, DepGraph, that reduces the complexity of the graph representation by 70% in nodes and edges by integrating interprocedural call graph in the graph representation of the code. Moreover, we integrate additional features such as code change information in the graph as attributes so the model can leverage rich historical project data. We evaluate DepGraph using Defects4j 2.0.0, and it outperforms Grace by locating 20% more faults in Top-1 and improving the Mean First Rank (MFR) and the Mean Average Rank (MAR) by over 50% while decreasing GPU memory usage by 44% and training/inference time by 85%. Additionally, in cross-project settings, DepGraph surpasses the state-of-the-art baseline with a 42% higher Top-1 accuracy, and 68% and 65% improvement in MFR and MAR, respectively. Our study demonstrates DepGraph's robustness, achieving state-of-the-art accuracy and scalability for future extension and adoption.
翻訳日:2024-04-09 20:58:47 公開日:2024-04-06
# 過パラメータ化非線形回帰における一貫性予測に対するベイズ推論

Bayesian Inference for Consistent Predictions in Overparameterized Nonlinear Regression ( http://arxiv.org/abs/2404.04498v1 )

ライセンス: Link先を確認
Tomoya Wakayama, (参考訳) 過パラメータ化モデルの顕著な一般化性能は、従来の統計学習理論の知恵に挑戦している。 最近の理論的研究は、線形モデルや非線形分類器におけるこの挙動に光を当てているが、非線形回帰における過度パラメータ化の包括的理解はいまだに欠けている。 本稿では,ベイズフレームワーク内での過パラメータ化非線形回帰の予測特性について検討し,本質的なスペクトル構造に基づく適応前の手法を拡張した。 我々は、リプシッツ連続活性化関数を持つ単一ニューロンモデルと一般化線形モデルに対する後部収縮を確立し、我々のアプローチが過パラメータ化された状態において一貫した予測を達成できることを実証した。 さらに、ベイジアン・フレームワークは予測の不確実性の推定を可能にする。 提案手法は数値シミュレーションと実データアプリケーションを用いて検証し,精度の高い予測と信頼性の高い不確実性推定を行う能力を示す。 我々の研究は、過パラメータ化の祝福に関する理論的理解を前進させ、大きな非線形モデルにおける予測に対する原理化されたベイズ的アプローチを提供する。

The remarkable generalization performance of overparameterized models has challenged the conventional wisdom of statistical learning theory. While recent theoretical studies have shed light on this behavior in linear models or nonlinear classifiers, a comprehensive understanding of overparameterization in nonlinear regression remains lacking. This paper explores the predictive properties of overparameterized nonlinear regression within the Bayesian framework, extending the methodology of adaptive prior based on the intrinsic spectral structure of the data. We establish posterior contraction for single-neuron models with Lipschitz continuous activation functions and for generalized linear models, demonstrating that our approach achieves consistent predictions in the overparameterized regime. Moreover, our Bayesian framework allows for uncertainty estimation of the predictions. The proposed method is validated through numerical simulations and a real data application, showcasing its ability to achieve accurate predictions and reliable uncertainty estimates. Our work advances the theoretical understanding of the blessing of overparameterization and offers a principled Bayesian approach for prediction in large nonlinear models.
翻訳日:2024-04-09 20:58:47 公開日:2024-04-06
# 信頼できない監査がデータやモデルを公開せずに

Trustless Audits without Revealing Data or Models ( http://arxiv.org/abs/2404.04500v1 )

ライセンス: Link先を確認
Suppakit Waiwitlikhit, Ion Stoica, Yi Sun, Tatsunori Hashimoto, Daniel Kang, (参考訳) 貿易秘密としてモデルやデータを隠蔽するビジネスインセンティブと、アルゴリズムの透明性に対する社会的必要性の間には、対立が増している。 例えば、トレーニング中に著作権のある著作物が使用されているかどうかを知りたい権利保有者は、第三者がモデルとデータを監査できるようにするよう、モデル提供者に説得する必要がある。 相互に合意できる第三者を見つけることは困難であり、関連するコストがこのアプローチを非現実的なものにすることが多い。 本研究では,モデルプロバイダがモデルウェイト(アーキテクチャではなく)とデータシークレットを同時に保持できると同時に,他のパーティがモデルとデータプロパティを信頼性のない監査を行うことができることを示す。 我々は、ZkAuditと呼ばれるプロトコルを設計し、モデル提供者がデータセットとモデルの重みの暗号的コミットメントを公開し、公開されたコミットメントがモデルのトレーニングに由来することを証明するゼロ知識証明(ZKP)と共に実施する。 そして、モデルプロバイダは、データセット(またはモデル)の任意の関数Fをプライベートに計算し、Fの正しい実行を認証する別のZKPとともにFの出力を解放することで、監査要求に応答することができる。 経験的に、我々は、著作権、検閲、偽造監査を含むDNNの信頼性のない監査を、正確さをほとんど失わずに提供できることを示します。

There is an increasing conflict between business incentives to hide models and data as trade secrets, and the societal need for algorithmic transparency. For example, a rightsholder wishing to know whether their copyrighted works have been used during training must convince the model provider to allow a third party to audit the model and data. Finding a mutually agreeable third party is difficult, and the associated costs often make this approach impractical. In this work, we show that it is possible to simultaneously allow model providers to keep their model weights (but not architecture) and data secret while allowing other parties to trustlessly audit model and data properties. We do this by designing a protocol called ZkAudit in which model providers publish cryptographic commitments of datasets and model weights, alongside a zero-knowledge proof (ZKP) certifying that published commitments are derived from training the model. Model providers can then respond to audit requests by privately computing any function F of the dataset (or model) and releasing the output of F alongside another ZKP certifying the correct execution of F. To enable ZkAudit, we develop new methods of computing ZKPs for SGD on modern neural nets for simple recommender systems and image classification models capable of high accuracies on ImageNet. Empirically, we show it is possible to provide trustless audits of DNNs, including copyright, censorship, and counterfactual audits with little to no loss in accuracy.
翻訳日:2024-04-09 20:58:47 公開日:2024-04-06
# エンド・ツー・エンド帯域フィードバックを持つマルチステージシステムの分散非線形学習

Distributed No-Regret Learning for Multi-Stage Systems with End-to-End Bandit Feedback ( http://arxiv.org/abs/2404.04509v1 )

ライセンス: Link先を確認
I-Hong Hou, (参考訳) 本稿では,エンド・ツー・エンドの帯域フィードバックを用いたマルチステージシステムについて検討する。 このようなシステムでは、各ジョブは複数のステージを通過して、それぞれ異なるエージェントによって管理され、結果を生成する必要があります。 各エージェントは自身のアクションを制御し、仕事の最終結果のみを学習する。 次段階のエージェントによる行動に関する知識もコントロールも持っていない。 本研究の目的は,敵対的環境におけるサブ線形後悔を実現するために,分散オンライン学習アルゴリズムを開発することである。 本稿では,エージェント1つとステージ1つしか考慮しない従来のマルチアームバンディット問題を大幅に拡張する。 従来のマルチアームバンディット問題における探索・探索ジレンマに加え、多段階の考察は第3の要素である教育を導入し、エージェントは次の段階におけるエージェントの学習を促進するためにその行動を選択する必要があることを示す。 新たに導入された探索-探索-教育のトリレンマを解決するために,簡単な分散オンライン学習アルゴリズムである$\epsilon-$EXP3を提案する。 理論的には、$\epsilon-$EXP3アルゴリズムは、サブ線形後悔を実現するための非回帰ポリシーであることを証明している。 シミュレーションの結果,$\epsilon-$EXP3アルゴリズムは,従来のマルチアームバンディット問題に対して,既存のオンライン学習アルゴリズムを著しく上回ることがわかった。

This paper studies multi-stage systems with end-to-end bandit feedback. In such systems, each job needs to go through multiple stages, each managed by a different agent, before generating an outcome. Each agent can only control its own action and learn the final outcome of the job. It has neither knowledge nor control on actions taken by agents in the next stage. The goal of this paper is to develop distributed online learning algorithms that achieve sublinear regret in adversarial environments. The setting of this paper significantly expands the traditional multi-armed bandit problem, which considers only one agent and one stage. In addition to the exploration-exploitation dilemma in the traditional multi-armed bandit problem, we show that the consideration of multiple stages introduces a third component, education, where an agent needs to choose its actions to facilitate the learning of agents in the next stage. To solve this newly introduced exploration-exploitation-education trilemma, we propose a simple distributed online learning algorithm, $\epsilon-$EXP3. We theoretically prove that the $\epsilon-$EXP3 algorithm is a no-regret policy that achieves sublinear regret. Simulation results show that the $\epsilon-$EXP3 algorithm significantly outperforms existing no-regret online learning algorithms for the traditional multi-armed bandit problem.
翻訳日:2024-04-09 20:58:47 公開日:2024-04-06
# IITK at SemEval-2024 Task 2: Exploring the capabilities of LLMs for Safe Biomedical Natural Language Inference for Clinical Trials

IITK at SemEval-2024 Task 2: Exploring the Capabilities of LLMs for Safe Biomedical Natural Language Inference for Clinical Trials ( http://arxiv.org/abs/2404.04510v1 )

ライセンス: Link先を確認
Shreyasi Mandal, Ashutosh Modi, (参考訳) 大規模言語モデル(LLM)は、複数のドメインにわたる様々な自然言語処理(NLP)タスクにおいて最先端のパフォーマンスを示すが、学習と現実の矛盾を短くする傾向にある。 本研究は,乳がんにおける自然言語推論(NLI)実施時のLSMの堅牢性,一貫性,忠実な推論について,SemEval 2024 Task 2: Safe Biomedical Natural Language Inference for Clinical Trialsを用いて検討した。 論理的問題解決におけるLLMの推論能力とその適応性について検討する。 Retrieval-Augmented Generation (RAG) フレームワークを用いて, ゼロショット設定下での事前学習言語モデル(PLM), GPT-3.5, Gemini Proの比較分析を行った。 評価はF1スコアが0.69、一貫性が0.71、忠実度が0.90となる。

Large Language models (LLMs) have demonstrated state-of-the-art performance in various natural language processing (NLP) tasks across multiple domains, yet they are prone to shortcut learning and factual inconsistencies. This research investigates LLMs' robustness, consistency, and faithful reasoning when performing Natural Language Inference (NLI) on breast cancer Clinical Trial Reports (CTRs) in the context of SemEval 2024 Task 2: Safe Biomedical Natural Language Inference for Clinical Trials. We examine the reasoning capabilities of LLMs and their adeptness at logical problem-solving. A comparative analysis is conducted on pre-trained language models (PLMs), GPT-3.5, and Gemini Pro under zero-shot settings using Retrieval-Augmented Generation (RAG) framework, integrating various reasoning chains. The evaluation yields an F1 score of 0.69, consistency of 0.71, and a faithfulness score of 0.90 on the test dataset.
翻訳日:2024-04-09 20:58:47 公開日:2024-04-06
# 時間的文脈認識によるクラスタビデオ要約

Cluster-based Video Summarization with Temporal Context Awareness ( http://arxiv.org/abs/2404.04511v1 )

ライセンス: Link先を確認
Hai-Dang Huynh-Lam, Ngoc-Phuong Ho-Thi, Minh-Triet Tran, Trung-Nghia Le, (参考訳) 本稿では,時間的文脈を取り入れたクラスタベースモデルの制約に対処する,ビデオ要約のための新しい,効率的なトレーニングフリーアプローチであるTAC-SUMを提案する。 提案手法は,クラスタリング情報を用いて時間的に連続したセグメントに分割し,クラスタリングプロセスに時間的意識を注入し,従来のクラスタベース要約手法と区別する。 得られた時間認識クラスタを使用して最終要約を計算し、キーフレーム選択とフレーム重要度スコアリングのための単純なルールを使用する。 SumMeデータセットによる実験結果から,提案手法の有効性を実証し,既存の教師なし手法より優れ,最先端の教師付き要約技術に匹敵する性能を実現した。 ソースコードは \url{https://github.com/hcmus-thesis-gulu/TAC-SUM} で参照できます。

In this paper, we present TAC-SUM, a novel and efficient training-free approach for video summarization that addresses the limitations of existing cluster-based models by incorporating temporal context. Our method partitions the input video into temporally consecutive segments with clustering information, enabling the injection of temporal awareness into the clustering process, setting it apart from prior cluster-based summarization methods. The resulting temporal-aware clusters are then utilized to compute the final summary, using simple rules for keyframe selection and frame importance scoring. Experimental results on the SumMe dataset demonstrate the effectiveness of our proposed approach, outperforming existing unsupervised methods and achieving comparable performance to state-of-the-art supervised summarization techniques. Our source code is available for reference at \url{https://github.com/hcmus-thesis-gulu/TAC-SUM}.
翻訳日:2024-04-09 20:58:47 公開日:2024-04-06
# IITK at SemEval-2024 Task 1: Contrastive Learning and Autoencoders for Semantic Textual Relatedness in Multilingual Texts (英語)

IITK at SemEval-2024 Task 1: Contrastive Learning and Autoencoders for Semantic Textual Relatedness in Multilingual Texts ( http://arxiv.org/abs/2404.04513v1 )

ライセンス: Link先を確認
Udvas Basak, Rajarshi Dutta, Shivam Pandey, Ashutosh Modi, (参考訳) 本稿では,SemEval-2024 Task 1: Semantic Textual Relatednessについて述べる。 この課題は、高資源と低リソースのアジアおよびアフリカ言語を含む14言語における文のペア間の関連性の度合いを自動的に検出することに焦点を当てている。 我々のチームは、トラックA:教師なし、トラックB:教師なしの2つのサブタスクに参加した。 本稿では,教師なしトラックのオートエンコーダを探索しながら,主に教師付きトラックに対して,BERTに基づくコントラスト学習と類似度メトリックに基づくアプローチに焦点を当てる。 また、負のサンプリング戦略を用いた大文字関連コーパスの作成も目的とし、洗練された単語埋め込みを創出する。

This paper describes our system developed for the SemEval-2024 Task 1: Semantic Textual Relatedness. The challenge is focused on automatically detecting the degree of relatedness between pairs of sentences for 14 languages including both high and low-resource Asian and African languages. Our team participated in two subtasks consisting of Track A: supervised and Track B: unsupervised. This paper focuses on a BERT-based contrastive learning and similarity metric based approach primarily for the supervised track while exploring autoencoders for the unsupervised track. It also aims on the creation of a bigram relatedness corpus using negative sampling strategy, thereby producing refined word embeddings.
翻訳日:2024-04-09 20:58:47 公開日:2024-04-06
# マルチモーダル大言語モデルによるオブジェクト中心知覚の改善のための共同視覚とテキストのプロンプト

Joint Visual and Text Prompting for Improved Object-Centric Perception with Multimodal Large Language Models ( http://arxiv.org/abs/2404.04514v1 )

ライセンス: Link先を確認
Songtao Jiang, Yan Zhang, Chenyi Zhou, Yeying Jin, Yang Feng, Jian Wu, Zuozhu Liu, (参考訳) GPT-4V や Gemini Pro のようなマルチモーダル大規模言語モデル (MLLM) は、視覚的質問回答 (VQA) において人間のレベルでの認識を達成する上での課題に直面している。 これは主に、複雑な視覚的手がかりをテキスト情報や潜在的対象幻覚と効果的に統合する能力に制限があるためである。 本稿では,VQAにおけるMLLMの高機能化,特にオブジェクト指向知覚のために,きめ細かな視覚情報を活用する新しいアプローチであるジョイント・ビジュアル・テキスト・プロンプティング(VTPrompt)を提案する。 VTPromptは、視覚とテキストのプロンプトをマージして、テキスト質問から重要な概念を抽出し、関連するオブジェクトを視覚的なプロンプトとして強調するために検出モデルを使用する。 処理された画像はテキストプロンプトと共にMLLMに入力され、より正確な回答が得られる。 GPT-4V と Gemini Pro を用いた MME , MMB , POPE の3つのベンチマーク実験により,大幅な改善が示された。 特に, GPT-4VをMPM上で最大183.5, GPT-4Vを最大8.17, Gemini Proを最大15.69に改善した。

Multimodal Large Language Models (MLLMs) such as GPT-4V and Gemini Pro face challenges in achieving human-level perception in Visual Question Answering (VQA), particularly in object-oriented perception tasks which demand fine-grained understanding of object identities, locations or attributes, as indicated by empirical findings. This is mainly due to their limited capability to effectively integrate complex visual cues with textual information and potential object hallucinations. In this paper, we present a novel approach, Joint Visual and Text Prompting (VTPrompt), that employs fine-grained visual information to enhance the capability of MLLMs in VQA, especially for object-oriented perception. VTPrompt merges visual and text prompts to extract key concepts from textual questions and employs a detection model to highlight relevant objects as visual prompts in images. The processed images alongside text prompts are subsequently fed into MLLMs to produce more accurate answers. Our experiments with GPT-4V and Gemini Pro, on three benchmarks, i.e., MME , MMB and POPE, demonstrate significant improvements. Particularly, our method led to a score improvement of up to 183.5 for GPT-4V on MME and enhanced MMB performance by 8.17\% for GPT-4V and 15.69\% for Gemini Pro.
翻訳日:2024-04-09 20:58:47 公開日:2024-04-06
# 批判的思考ツールとしての言語モデル--哲学者を事例として

Language Models as Critical Thinking Tools: A Case Study of Philosophers ( http://arxiv.org/abs/2404.04516v1 )

ライセンス: Link先を確認
Andre Ye, Jared Moore, Rose Novick, Amy X. Zhang, (参考訳) 言語モデル(LM)における現在の作業は、認知作業の高速化と自動化によって、思考のスピードアップや省略にも役立ちます。 しかし、LMは、仮定に挑戦し、アイデアを明確にし、新しい概念を設計する、より深く、より反射的な考え方で、批判的な思考に役立ちますか? 批判的思考における哲学のケーススタディとして扱うとともに,21人の専門家哲学者に,批判的思考への関与とLMの経験についてインタビューする。 哲学者は、自尊心(記憶、信念、一貫性)とイニシアチブ(好奇心、積極性)が欠如していることから、LMが有用でないと感じている。 このギャップを特徴付けるために,批判的思考ツールのための自己行動開始モデルを提案する。 モデルを用いて、LMが重要な思考ツールとして機能する3つの役割を定式化します。 我々の研究は、LM研究者に批判的思考ツールや哲学者、その他の「批判的思考者」としてLMをさらに発展させ、LMの知的実体的利用を想像させることを願っている。

Current work in language models (LMs) helps us speed up or even skip thinking by accelerating and automating cognitive work. But can LMs help us with critical thinking -- thinking in deeper, more reflective ways which challenge assumptions, clarify ideas, and engineer new concepts? We treat philosophy as a case study in critical thinking, and interview 21 professional philosophers about how they engage in critical thinking and on their experiences with LMs. We find that philosophers do not find LMs to be useful because they lack a sense of selfhood (memory, beliefs, consistency) and initiative (curiosity, proactivity). We propose the selfhood-initiative model for critical thinking tools to characterize this gap. Using the model, we formulate three roles LMs could play as critical thinking tools: the Interlocutor, the Monitor, and the Respondent. We hope that our work inspires LM researchers to further develop LMs as critical thinking tools and philosophers and other 'critical thinkers' to imagine intellectually substantive uses of LMs.
翻訳日:2024-04-09 20:58:47 公開日:2024-04-06
# ロングテール認識のための潜時拡散モデル

Latent-based Diffusion Model for Long-tailed Recognition ( http://arxiv.org/abs/2404.04517v1 )

ライセンス: Link先を確認
Pengxiao Han, Changkun Ye, Jieming Zhou, Jing Zhang, Jie Hong, Xuesong Li, (参考訳) 長い尾の不均衡分布は、実用的なコンピュータビジョンアプリケーションにおいて一般的な問題である。 従来の研究では、再サンプリング、再重み付け、転乗学習、機能拡張といういくつかのクラスに分類されるこの問題に対処する方法が提案されていた。 近年、拡散モデルは深層コンピュータビジョンの多くのサブプロブレムにおいて印象的な生成能力を示している。 しかし、その強力な世代は長い尾の問題では研究されていない。 本稿では,Long-tailed Recognition (LDMLR) のためのラテントベース拡散モデル(Latent-based Diffusion Model for Long-tailed Recognition, LMLR)を提案する。 まず、不均衡なデータセットをベースラインモデルを用いて特徴にエンコードする。 次に、これらの符号化された特徴を用いてDEM(Denoising Diffusion Implicit Model)を訓練し、擬似特徴を生成する。 最後に、前の2つのステップから符号化および擬似特徴を用いて分類器を訓練する。 モデルの精度は,提案手法を用いてCIFAR-LTおよびImageNet-LTデータセットの改善を示す。

Long-tailed imbalance distribution is a common issue in practical computer vision applications. Previous works proposed methods to address this problem, which can be categorized into several classes: re-sampling, re-weighting, transfer learning, and feature augmentation. In recent years, diffusion models have shown an impressive generation ability in many sub-problems of deep computer vision. However, its powerful generation has not been explored in long-tailed problems. We propose a new approach, the Latent-based Diffusion Model for Long-tailed Recognition (LDMLR), as a feature augmentation method to tackle the issue. First, we encode the imbalanced dataset into features using the baseline model. Then, we train a Denoising Diffusion Implicit Model (DDIM) using these encoded features to generate pseudo-features. Finally, we train the classifier using the encoded and pseudo-features from the previous two steps. The model's accuracy shows an improvement on the CIFAR-LT and ImageNet-LT datasets by using the proposed method.
翻訳日:2024-04-09 20:58:47 公開日:2024-04-06
# MedIAnomaly:医療画像における異常検出の比較研究

MedIAnomaly: A comparative study of anomaly detection in medical images ( http://arxiv.org/abs/2404.04518v1 )

ライセンス: Link先を確認
Yu Cai, Weiwen Zhang, Hao Chen, Kwang-Ting Cheng, (参考訳) 異常検出(AD)は、期待される正常なパターンから逸脱する異常なサンプルを検出することを目的としている。 一般に、異常なサンプルを必要とせず、単に通常のデータに基づいて訓練することができるため、医療領域における稀な疾患の認識や健康診断において重要な役割を担っている。 多くの関連する研究にもかかわらず、公平で包括的な評価の欠如が観察され、いくつかの曖昧な結論が導き出され、この分野の発展を妨げる。 本稿では,実装を統一したベンチマークの構築と,この問題に対処するための比較に焦点をあてる。 特に,胸部X線,脳MRI,網膜基底像,皮膚内視鏡像,病理組織像を含む5つの画像モダリティを持つ7つの医用データセットを整理し,広範囲な評価を行った。 画像レベルの異常分類と画素レベルの異常セグメンテーションの比較には,再構成や自己教師付き学習に基づく手法を含む27種類のAD手法が関与している。 さらに,既存の手法におけるキーコンポーネントの効果を公式に検討し,未解決の課題と今後の方向性を明らかにした。 データセットとコードは \url{https://github.com/caiyu6666/MedIAnomaly} で公開されている。

Anomaly detection (AD) aims at detecting abnormal samples that deviate from the expected normal patterns. Generally, it can be trained on merely normal data without the requirement for abnormal samples, and thereby plays an important role in the recognition of rare diseases and health screening in the medical domain. Despite numerous related studies, we observe a lack of a fair and comprehensive evaluation, which causes some ambiguous conclusions and hinders the development of this field. This paper focuses on building a benchmark with unified implementation and comparison to address this problem. In particular, seven medical datasets with five image modalities, including chest X-rays, brain MRIs, retinal fundus images, dermatoscopic images, and histopathology whole slide images are organized for extensive evaluation. Twenty-seven typical AD methods, including reconstruction and self-supervised learning-based methods, are involved in comparison of image-level anomaly classification and pixel-level anomaly segmentation. Furthermore, we for the first time formally explore the effect of key components in existing methods, clearly revealing unresolved challenges and potential future directions. The datasets and code are available at \url{https://github.com/caiyu6666/MedIAnomaly}.
翻訳日:2024-04-09 20:49:00 公開日:2024-04-06
# IITK at SemEval-2024 Task 4:Hierarchical Embeddings for Detection of Persuasion Techniques in Memes (特集:情報ネットワーク)

IITK at SemEval-2024 Task 4: Hierarchical Embeddings for Detection of Persuasion Techniques in Memes ( http://arxiv.org/abs/2404.04520v1 )

ライセンス: Link先を確認
Shreenaga Chikoti, Shrey Mehta, Ashutosh Modi, (参考訳) ミームは、オンラインの偽情報キャンペーンで使用される最も人気のあるタイプのコンテンツの一つである。 主にソーシャルメディアプラットフォームで有効であり、多くのユーザーに簡単にリーチできる。 偽情報キャンペーンのミームは、因果的単純化、名前呼び出し、スミアといったいくつかの修辞的・心理的手法を通じてユーザーに影響を与えるという目標を達成する。 SemEval 2024 Task 4 \textit{Multilingual Detection of Persuasion Technique in Memes} ミームにおけるこれらのテクニックの識別は、以下の3つのサブタスクに分けられる。 本稿では,この課題に対するクラス定義予測(CDP)と双曲埋め込みに基づくアプローチのアンサンブルを提案する。 我々は,HypEmoの階層的なラベル埋め込み(Chen et al , 2023)とマルチタスク学習フレームワークを統合し,感情予測のためのミーム分類精度と包括性を向上する。 我々は各サブタスクで0.60,0.67,0.48の階層的なF1スコアを達成する。

Memes are one of the most popular types of content used in an online disinformation campaign. They are primarily effective on social media platforms since they can easily reach many users. Memes in a disinformation campaign achieve their goal of influencing the users through several rhetorical and psychological techniques, such as causal oversimplification, name-calling, and smear. The SemEval 2024 Task 4 \textit{Multilingual Detection of Persuasion Technique in Memes} on identifying such techniques in the memes is divided across three sub-tasks: ($\mathbf{1}$) Hierarchical multi-label classification using only textual content of the meme, ($\mathbf{2}$) Hierarchical multi-label classification using both, textual and visual content of the meme and ($\mathbf{3}$) Binary classification of whether the meme contains a persuasion technique or not using it's textual and visual content. This paper proposes an ensemble of Class Definition Prediction (CDP) and hyperbolic embeddings-based approaches for this task. We enhance meme classification accuracy and comprehensiveness by integrating HypEmo's hierarchical label embeddings (Chen et al., 2023) and a multi-task learning framework for emotion prediction. We achieve a hierarchical F1-score of 0.60, 0.67, and 0.48 on the respective sub-tasks.
翻訳日:2024-04-09 20:49:00 公開日:2024-04-06
# コンピュータプログラムの評価とプロジェクトの自動化 -- 私たちの経験から

Automated Computer Program Evaluation and Projects -- Our Experiences ( http://arxiv.org/abs/2404.04521v1 )

ライセンス: Link先を確認
Bama Srinivasan, Mala Nehru, Ranjani Parthasarathi, Saswati Mukherjee, Jeena A Thankachan, (参考訳) 本稿では,過去6年間追跡してきたコンピュータ・プログラミングとプロジェクト・サブミッションの自動化に対するいくつかのアプローチについて述べる。 このアプローチには、プログラミングの実践と評価にCodeRunner with Learning Management System(LMS)統合を使用すること、プロジェクトの提出と自動コード評価にGit(GitHub)を使用することが含まれる。 本稿では,ツールのセットアップ方法の詳細と,コンピュータサイエンスのコース用にカスタマイズしたツールについて述べる。 私たちの経験に基づいて、これらのツールを効果的な学習に利用するための洞察も提供しています。

This paper provides a few approaches to automating computer programming and project submission tasks, that we have been following for the last six years and have found to be successful. The approaches include using CodeRunner with Learning Management System (LMS) integration for programming practice and evaluation, and Git (GitHub) for project submissions and automatic code evaluation. In this paper, we describe the details of how we set up the tools and customized those for computer science courses. Based on our experiences, we also provide a few insights on using these tools for effective learning.
翻訳日:2024-04-09 20:49:00 公開日:2024-04-06
# Q-PEFT:大規模言語モデルを用いたテキスト検索のためのクエリ依存パラメータの効率的な微調整

Q-PEFT: Query-dependent Parameter Efficient Fine-tuning for Text Reranking with Large Language Models ( http://arxiv.org/abs/2404.04522v1 )

ライセンス: Link先を確認
Zhiyuan Peng, Xuyang Wu, Qifan Wang, Sravanthi Rajanala, Yi Fang, (参考訳) パラメータ効率の良いファインチューニング(PEFT)法はLarge Language Models (LLM) において,LLM全体を微調整するコストを伴わずにダウンストリームタスクを改善するために広く利用されている。 近年の研究では、異なる文書に対して学習プロンプトを固定すること、特定のタスクに過度に適合すること、適応能力の低下など、評価タスクの微調整にPEFTを効果的に利用する方法が示されている。 本稿では,LLM に真のクエリに関する情報を漏らし,入力文書から真のクエリを生成することを容易にするために,テキストの再ランク付けのためのクエリ依存パラメータ効率の良い微調整(Q-PEFT)手法を提案する。 具体的には、クエリを使用して、コンカレントドキュメントから上位$kのトークンを抽出し、コンテキストの手がかりとして機能する。 さらに,検索機構をマルチヘッドアテンション層に置換し,文書中のトークンをすべてカバーし,LCMを誘導してより文書固有の合成クエリを生成することにより,再配置性能を向上させることにより,Q-PEFTをさらに強化する。 提案手法の有効性を実証するため,4つの公開データセットを用いて大規模な実験を行った。

Parameter Efficient Fine-Tuning (PEFT) methods have been extensively utilized in Large Language Models (LLMs) to improve the down-streaming tasks without the cost of fine-tuing the whole LLMs. Recent studies have shown how to effectively use PEFT for fine-tuning LLMs in ranking tasks with convincing performance; there are some limitations, including the learned prompt being fixed for different documents, overfitting to specific tasks, and low adaptation ability. In this paper, we introduce a query-dependent parameter efficient fine-tuning (Q-PEFT) approach for text reranking to leak the information of the true queries to LLMs and then make the generation of true queries from input documents much easier. Specifically, we utilize the query to extract the top-$k$ tokens from concatenated documents, serving as contextual clues. We further augment Q-PEFT by substituting the retrieval mechanism with a multi-head attention layer to achieve end-to-end training and cover all the tokens in the documents, guiding the LLMs to generate more document-specific synthetic queries, thereby further improving the reranking performance. Extensive experiments are conducted on four public datasets, demonstrating the effectiveness of our proposed approach.
翻訳日:2024-04-09 20:49:00 公開日:2024-04-06
# IITK at SemEval-2024 Task 10: Who is the Speaker? : Improving Emotion Recognition and Flip Reasoning in Conversations via Speaker Embeddings (英語)

IITK at SemEval-2024 Task 10: Who is the speaker? Improving Emotion Recognition and Flip Reasoning in Conversations via Speaker Embeddings ( http://arxiv.org/abs/2404.04525v1 )

ライセンス: Link先を確認
Shubham Patel, Divyaksh Shukla, Ashutosh Modi, (参考訳) 本稿では,SemEval-2024 Task 10: Emotion Discovery and Reasoning its Flip in Conversationsを提案する。 Emotion Recognition in Conversations (ERC)タスクでは、マスク付きメモリネットワークと話者参加を併用する。 Emotion Flip Reasoning (EFR) タスクのためのトランスフォーマーに基づく話者中心モデルを提案する。 また、会話の領域であるProbable Trigger Zoneも導入しています。 サブタスク3では,タスクベースラインに対する5.9(F1スコア)の改善が提案されている。 アブレーション実験の結果は,提案手法における設計選択の重要性を浮き彫りにした。

This paper presents our approach for the SemEval-2024 Task 10: Emotion Discovery and Reasoning its Flip in Conversations. For the Emotion Recognition in Conversations (ERC) task, we utilize a masked-memory network along with speaker participation. We propose a transformer-based speaker-centric model for the Emotion Flip Reasoning (EFR) task. We also introduce Probable Trigger Zone, a region of the conversation that is more likely to contain the utterances causing the emotion to flip. For sub-task 3, the proposed approach achieves a 5.9 (F1 score) improvement over the task baseline. The ablation study results highlight the significance of various design choices in the proposed method.
翻訳日:2024-04-09 20:49:00 公開日:2024-04-06
# DATENeRF: テキストによるNeRFの編集

DATENeRF: Depth-Aware Text-based Editing of NeRFs ( http://arxiv.org/abs/2404.04526v1 )

ライセンス: Link先を確認
Sara Rojas, Julien Philip, Kai Zhang, Sai Bi, Fujun Luan, Bernard Ghanem, Kalyan Sunkavall, (参考訳) 近年の拡散モデルの進歩は,テキストプロンプトに基づく2次元画像の編集に顕著な習熟性を示している。 しかし、個々の2Dフレームの編集が複数のビューにまたがる不整合をもたらすため、これらのテクニックを拡張してNeRF(Neural Radiance Fields)のシーンを編集することは複雑である。 私たちの重要な洞察は、NeRFシーンの幾何学がこれらの2D編集を統合するブリッジとして機能できるということです。 この幾何を利用して、各2次元画像修正のコヒーレンスを高めるために、奥行き条件の制御ネットを用いる。 さらに、NeRFシーンの奥行き情報を活用して、異なる画像に2D編集を分散し、エラーに対する堅牢性を確保し、課題を再サンプリングする。 以上の結果から,本手法は既存のテキスト駆動型NeRFシーン編集手法よりも,より一貫性があり,ライフライクで,詳細な編集が可能であることが判明した。

Recent advancements in diffusion models have shown remarkable proficiency in editing 2D images based on text prompts. However, extending these techniques to edit scenes in Neural Radiance Fields (NeRF) is complex, as editing individual 2D frames can result in inconsistencies across multiple views. Our crucial insight is that a NeRF scene's geometry can serve as a bridge to integrate these 2D edits. Utilizing this geometry, we employ a depth-conditioned ControlNet to enhance the coherence of each 2D image modification. Moreover, we introduce an inpainting approach that leverages the depth information of NeRF scenes to distribute 2D edits across different images, ensuring robustness against errors and resampling challenges. Our results reveal that this methodology achieves more consistent, lifelike, and detailed edits than existing leading methods for text-driven NeRF scene editing.
翻訳日:2024-04-09 20:49:00 公開日:2024-04-06
# VTR:FPGA上でのSAR ATR高速化のための最適化ビジョン変換器

VTR: An Optimized Vision Transformer for SAR ATR Acceleration on FPGA ( http://arxiv.org/abs/2404.04527v1 )

ライセンス: Link先を確認
Sachini Wickramasinghe, Dhruv Parikh, Bingyi Zhang, Rajgopal Kannan, Viktor Prasanna, Carl Busart, (参考訳) 合成開口レーダ(SAR) 自動目標認識(ATR)は、リモートセンシング画像認識のような軍事用途で使用される重要な技術である。 ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンアプリケーションにおける最先端技術であり、CNNよりも優れている。 しかし,SAR ATR アプリケーションに ViT を使うことは,(1) 標準の ViT が局所性が低いため,広範囲なトレーニングデータを必要とすること,(2) 標準の SAR データセットは,ViT の学習能力を低下させるラベル付きトレーニングデータに制限があること,(2) パラメータ数が高く,リソース制約の SAR プラットフォームへの展開が困難であること,などの理由から,困難である。 本研究では,SPT(Shifted Patch Tokenization)モジュールとLSA(Locality Self-Attention)モジュールを利用することで,事前トレーニングなしに,小さなデータセット上で直接トレーニング可能な軽量ViTモデルを開発する。 我々は、SAR ATRアプリケーションの有効性を評価するために、限られたトレーニングサンプルを持つSARデータセット上で、このモデルを直接訓練する。 MSTAR, SynthWakeSAR, GBSARの3つのSARデータセット上で, VTR (ViT for SAR ATR) と呼ぶ提案モデルを評価する。 さらに,リアルタイムSAR ATRアプリケーションのデプロイを実現するために,VTR用のFPGAアクセラレータを提案する。

Synthetic Aperture Radar (SAR) Automatic Target Recognition (ATR) is a key technique used in military applications like remote-sensing image recognition. Vision Transformers (ViTs) are the current state-of-the-art in various computer vision applications, outperforming their CNN counterparts. However, using ViTs for SAR ATR applications is challenging due to (1) standard ViTs require extensive training data to generalize well due to their low locality; the standard SAR datasets, however, have a limited number of labeled training data which reduces the learning capability of ViTs; (2) ViTs have a high parameter count and are computation intensive which makes their deployment on resource-constrained SAR platforms difficult. In this work, we develop a lightweight ViT model that can be trained directly on small datasets without any pre-training by utilizing the Shifted Patch Tokenization (SPT) and Locality Self-Attention (LSA) modules. We directly train this model on SAR datasets which have limited training samples to evaluate its effectiveness for SAR ATR applications. We evaluate our proposed model, that we call VTR (ViT for SAR ATR), on three widely used SAR datasets: MSTAR, SynthWakeSAR, and GBSAR. Further, we propose a novel FPGA accelerator for VTR, in order to enable deployment for real-time SAR ATR applications.
翻訳日:2024-04-09 20:49:00 公開日:2024-04-06
# 形態素に基づく位置符号化の検討

A Morphology-Based Investigation of Positional Encodings ( http://arxiv.org/abs/2404.04530v1 )

ライセンス: Link先を確認
Poulami Ghosh, Shikhar Vashishth, Raj Dabre, Pushpak Bhattacharyya, (参考訳) プレトレーニング言語モデル(PLM)における位置符号化の重要性は、形態的複雑さの異なる言語によってどのように異なるのか? 本稿では,23の形態的多様言語と5つの異なる下流タスクを含む,この問題に対処する最初の研究について述べる。 構文的タスク(音声タグ付け、エンティティ認識、依存性解析)と意味的タスク(自然言語推論、パラフレージング)の2つのカテゴリを選択します。 単言語コーパスで学習した言語固有のBERTモデルについて検討した。 主な実験は、微調整中の位置符号化の効果を無効化し、様々なタスクや言語に対する影響を調べることである。 その結果,言語の形態的複雑さが増大するにつれて,位置符号化の重要性が低下することが示唆された。 すべての実験において, 解析言語を一方の端に, 合成言語を反対の端に配置し, 形態的類型に基づく言語クラスタリングを観察する。

How does the importance of positional encoding in pre-trained language models (PLMs) vary across languages with different morphological complexity? In this paper, we offer the first study addressing this question, encompassing 23 morphologically diverse languages and 5 different downstream tasks. We choose two categories of tasks: syntactic tasks (part-of-speech tagging, named entity recognition, dependency parsing) and semantic tasks (natural language inference, paraphrasing). We consider language-specific BERT models trained on monolingual corpus for our investigation. The main experiment consists of nullifying the effect of positional encoding during fine-tuning and investigating its impact across various tasks and languages. Our findings demonstrate that the significance of positional encoding diminishes as the morphological complexity of a language increases. Across all experiments, we observe clustering of languages according to their morphological typology - with analytic languages at one end and synthetic languages at the opposite end.
翻訳日:2024-04-09 20:49:00 公開日:2024-04-06
# リモートセンシング画像セマンティックセグメンテーションのための周波数分解駆動非教師なし領域適応

Frequency Decomposition-Driven Unsupervised Domain Adaptation for Remote Sensing Image Semantic Segmentation ( http://arxiv.org/abs/2404.04531v1 )

ライセンス: Link先を確認
Xianping Ma, Xiaokang Zhang, Xingchen Ding, Man-On Pun, Siwei Ma, (参考訳) 非教師なし領域適応(UDA)技術に基づくリモートセンシング(RS)画像のクロスドメインセマンティックセマンティックセマンティックセマンティックセマンティクスは、地球科学における深層学習を著しく進歩させた。 近年,トランスフォーマーモデルがRS-UDAタスクに適用されている。 しかし、既存のUDAメソッドは主に高レベルの特徴空間におけるドメインアライメントに焦点を当てている。 領域横断的な空間的詳細とグローバルな文脈的意味論を同時に維持することは、RS画像セマンティックセグメンテーションタスクにとって重要な課題である。 これらの問題に対処するために、クロスドメインセマンティックセグメンテーションにおける表現アライメントを導くための新しい高周波数分解法(HLFD)を提案する。 具体的には、HLFDは対応する部分空間でドメインアライメントを実行する前に、特徴写像を高周波数成分と低周波数成分に分解しようとする。 次に,グローバルローカルトランスフォーマーブロック(GLTB)を活用して,ドメイン間のドメイン不変な詳細および意味的特徴を学習するための,完全にグローバルな生成的敵ネットワークであるGLGANを提案する。 HLFD技術とGLGANを統合することで、セマンティックセグメンテーションモデルのクロスドメイン転送性と一般化能力を向上させるために、FD-GLGANと呼ばれる新しいUDAフレームワークを開発した。 ISPRS Potsdam と ISPRS Vaihingen の2つの詳細なベンチマークデータセットに対する大規模な実験は、提案手法の有効性と優位性を強調している。 この作業のソースコードはhttps://github.com/sstary/SSRS.comからアクセスできる。

Cross-domain semantic segmentation of remote sensing (RS) imagery based on unsupervised domain adaptation (UDA) techniques has significantly advanced deep-learning applications in the geosciences. Recently, with its ingenious and versatile architecture, the Transformer model has been successfully applied in RS-UDA tasks. However, existing UDA methods mainly focus on domain alignment in the high-level feature space. It is still challenging to retain cross-domain local spatial details and global contextual semantics simultaneously, which is crucial for the RS image semantic segmentation task. To address these problems, we propose novel high/low-frequency decomposition (HLFD) techniques to guide representation alignment in cross-domain semantic segmentation. Specifically, HLFD attempts to decompose the feature maps into high- and low-frequency components before performing the domain alignment in the corresponding subspaces. Secondly, to further facilitate the alignment of decomposed features, we propose a fully global-local generative adversarial network, namely GLGAN, to learn domain-invariant detailed and semantic features across domains by leveraging global-local transformer blocks (GLTBs). By integrating HLFD techniques and the GLGAN, a novel UDA framework called FD-GLGAN is developed to improve the cross-domain transferability and generalization capability of semantic segmentation models. Extensive experiments on two fine-resolution benchmark datasets, namely ISPRS Potsdam and ISPRS Vaihingen, highlight the effectiveness and superiority of the proposed approach as compared to the state-of-the-art UDA methods. The source code for this work will be accessible at https://github.com/sstary/SSRS.
翻訳日:2024-04-09 20:49:00 公開日:2024-04-06
# 高温から寒冷までの熱流:孤立したマクロ量子系における単純な熱化の厳密な例

Heat flows from hot to cold: A simple rigorous example of thermalization in an isolated macroscopic quantum system ( http://arxiv.org/abs/2404.04533v1 )

ライセンス: Link先を確認
Hal Tasaki, (参考訳) 本稿では,マイクロカノニカルエネルギーシェルの任意の初期状態から熱平衡へのアプローチを,未証明の仮定に頼らずに証明する,マクロ量子多体系の簡単な例について論じる。 自由フェルミオン鎖に相当するこのモデルは、弱熱伝導性一次元固体のための玩具モデルとして設計されている。 我々は, 測定された粗粒度エネルギー分布が均一である場合に, 系が熱平衡にあることを, 現象学的視点で認識する。 ここで報告した熱化の結果は、自由フェルミオン鎖の不可逆展開に関するこれまでの結果の変動(および改善)である。 われわれが知る限り、これはフォン・ノイマンが1929年に提唱した平衡統計力学の基礎に関する哲学の具体的かつ厳密な実現であり、さらに近年、ゴールドスタイン、レボリッツ、マストロドナート、トゥムルカ、ザングフイらによって発展され、現在の著者、すなわち、マクロ的な視点から熱平衡を特徴づけ、強いETHを用いて長期力学を制御する。 このメモは、私の長きにわたる熱化に関する記事「熱平衡とは何か、どうやってそこに着くのか?」の最も技術的な部分です。 講演のいくつかですでに発表(そして発表)しているので、この段階でこの文書を公開しています。

In the present note, we discuss a simple example of a macroscopic quantum many-body system in which the approach to thermal equilibrium from an arbitrary initial state in the microcanonical energy shell is proved without relying on any unproven assumptions. The model, which is equivalent to a free fermion chain, is designed to be a toy model for a weakly heat-conducting one-dimensional solid. We take a phenomenological point of view and perceive that the system is in thermal equilibrium when the measured coarse-grained energy distribution is uniform. The result on thermalization reported here is a variation (and an improvement) of our previous result on the irreversible expansion in a free fermion chain. As far as we know, this is the first concrete and rigorous realization of the philosophy on the foundation of equilibrium statistical mechanics proposed by von Neumann in 1929, and further developed recently by Goldstein, Lebowitz, Mastrodonato, Tumulka, and Zangh\`\i and the present author, namely, to characterize thermal equilibrium from a macroscopic viewpoint and to make use of the strong ETH to control the long-time dynamics. This note will be the most technical part of my longer article on thermalization, "What is thermal equilibrium and how do we get there?". I am making this document public at this stage since I have already announced (and will announce) the results at some of my talks.
翻訳日:2024-04-09 20:49:00 公開日:2024-04-06
# 公正規制が施設の政策と人口基準に及ぼす影響

Impact of Fairness Regulations on Institutions' Policies and Population Qualifications ( http://arxiv.org/abs/2404.04534v1 )

ライセンス: Link先を確認
Hamidreza Montaseri, Amin Gohari, (参考訳) アルゴリズムシステムの拡散は、彼らの社会的影響の規制と制御に関する議論を加速させた。 本稿では,最も適格な個人を選択することで,実用性を最大化するシステムについて考察する。 選択アルゴリズムにおける人口格差を促進するために,社会集団間の差別を罰することを検討する。 差別罰が選択の格差を効果的に軽減できる条件を検討する。 また,刑罰政策の施行に応じて,個別の資格が経時的に進化する可能性がある場合にも,このような罰がもたらす影響について検討する。 我々は、ペナルティが人口内の株式の自然な獲得を妨げるシナリオを特定する。 さらに、この望ましくない結果に対処できる条件を提案し、公平性を確保する。

The proliferation of algorithmic systems has fueled discussions surrounding the regulation and control of their social impact. Herein, we consider a system whose primary objective is to maximize utility by selecting the most qualified individuals. To promote demographic parity in the selection algorithm, we consider penalizing discrimination across social groups. We examine conditions under which a discrimination penalty can effectively reduce disparity in the selection. Additionally, we explore the implications of such a penalty when individual qualifications may evolve over time in response to the imposed penalizing policy. We identify scenarios where the penalty could hinder the natural attainment of equity within the population. Moreover, we propose certain conditions that can counteract this undesirable outcome, thus ensuring fairness.
翻訳日:2024-04-09 20:49:00 公開日:2024-04-06
# 光量子ウォークにおける非エルミート非エルミート皮膚効果

Incoherent non-Hermitian skin effect in photonic quantum walks ( http://arxiv.org/abs/2404.04536v1 )

ライセンス: Link先を確認
Stefano Longhi, (参考訳) 非エルミート皮膚効果は、ある散逸系の境界付近の多数の固有状態の濃度を記述する。 この現象は、フォトニクスを含む物理学の様々な分野に大きな関心を集め、非エルミート系の理解を深め、トポロジカル現象の基本的側面と応用的側面の両方に新しい道を開く。 皮膚効果は非自明な点ギャップスペクトルトポロジーと関連付けられており、フォトニック格子を含む様々な合成物質系で実験的に実証されている。 非エルミート皮膚効果を示すほとんどの物理モデルでは、概して部分波コヒーレンスが仮定される。 ここでは、皮膚効果の概念を完全に一貫性のない体制に押し込み、一般的には(普遍的にはではないが)非エルミート皮膚効果が強調力学の下で持続することを示す。 この結果は、非エルミートフォトニック量子ウォークにおける非コヒーレント光力学を考慮することによって説明される。

The non-Hermitian skin effect describes the concentration of an extensive number of eigenstates near the boundaries of certain dissipative systems. This phenomenon has raised a huge interest in different areas of physics, including photonics, deeply expanding our understanding of non-Hermitian systems and opening up new avenues in both fundamental and applied aspects of topological phenomena. The skin effect has been associated to a nontrivial point-gap spectral topology and has been experimentally demonstrated in a variety of synthetic matter systems, including photonic lattices. In most of physical models exhibiting the non-Hermitian skin effect full or partial wave coherence is generally assumed. Here we push the concept of skin effect into the fully incoherent regime and show that rather generally (but not universally) the non-Hermitian skin effect persists under dephasing dynamics. The results are illustrated by considering incoherent light dynamics in non-Hermitian photonic quantum walks.
翻訳日:2024-04-09 20:49:00 公開日:2024-04-06
# 非エルミートフォトニック準結晶におけるロバスト・アンダーソン転移

Robust Anderson transition in non-Hermitian photonic quasicrystals ( http://arxiv.org/abs/2404.04537v1 )

ライセンス: Link先を確認
Stefano Longhi, (参考訳) アンダーソンの局在化(アンダーソンのりょうり、英: Anderson localization、すなわち、ランダムまたは非共変性障害を持つ格子の拡散の抑制)は、嫌悪効果や変動性障害の存在下で損なわれる脆弱な干渉現象である。 その結果, 1次元準結晶のようにエルミート系で観測されるアンダーソン局在化脱局在相転移は, 非共分散ポテンシャルの振幅が閾値を超えると, 脱着効果を含むと洗い流されることがわかった。 ここでは,非エルミート準結晶における非エルミート準結晶の局在化-非局在化スペクトル相転移を局所的ゲイン・アンド・ロスとみなし,エルミートの場合とは対照的に,非エルミート相転移がデフォーカス効果に対して堅牢であることを示す。 その結果,フォトニックメッシュ格子の合成準結晶について考察した。

Anderson localization, i.e. the suppression of diffusion in lattices with random or incommensurate disorder, is a fragile interference phenomenon which is spoiled out in the presence of dephasing effects or fluctuating disorder. As a consequence, Anderson localization-delocalization phase transitions observed in Hermitian systems, such as in one-dimensional quasicrystals when the amplitude of the incommensurate potential is increased above a threshold, are washed out when dephasing effects are included. Here we consider localization-delocalization spectral phase transitions occurring in non-Hermitian quasicrystals with local incommensurate gain and loss, and show that, contrary to the Hermitian case, the non-Hermitian phase transition is robust against dephasing effects. The results are illustrated by considering synthetic quasicrystals in photonic mesh lattices.
翻訳日:2024-04-09 20:49:00 公開日:2024-04-06
# マルチモーダル表現学習のためのグラフ・オブ・サートによるソフトプロンプト

Soft-Prompting with Graph-of-Thought for Multi-modal Representation Learning ( http://arxiv.org/abs/2404.04538v1 )

ライセンス: Link先を確認
Juncheng Yang, Zuchao Li, Shuai Xie, Wei Yu, Shijun Li, Bo Du, (参考訳) このチェーン・オブ・シークレット技術は、マルチモーダルタスクにおいてよく受け入れられている。 これは、連鎖の長さを調整し、生成されたプロンプトの性能を改善する、ステップバイステップの線形推論プロセスである。 しかしながら、人間の思考過程は、複数の側面を同時に包含し、動的調整と更新機構を用いるため、主に非線形ではない。 そこで本研究では,マルチモーダル表現学習におけるソフトプロンプトチューニングのためのAgoT(Aggregation-Graph-of-Thought)機構を提案する。 提案したAGoTは、人間の思考過程をチェーンとしてだけでなく、各ステップを推論集約グラフとしてモデル化し、単一ステップの推論において見過ごされた思考の複数の側面に対処する。 これにより、推論プロセス全体をアグリゲーションとフロー操作のプロンプトに変換する。 実験の結果,AGoTソフトプロンプトにより強化されたマルチモーダルモデルは,テキスト画像検索,視覚的質問応答,画像認識などのタスクにおいて良好な結果が得られることがわかった。 さらに、より優れた推論により、ドメインの一般化性能がよいことを示す。

The chain-of-thought technique has been received well in multi-modal tasks. It is a step-by-step linear reasoning process that adjusts the length of the chain to improve the performance of generated prompts. However, human thought processes are predominantly non-linear, as they encompass multiple aspects simultaneously and employ dynamic adjustment and updating mechanisms. Therefore, we propose a novel Aggregation-Graph-of-Thought (AGoT) mechanism for soft-prompt tuning in multi-modal representation learning. The proposed AGoT models the human thought process not only as a chain but also models each step as a reasoning aggregation graph to cope with the overlooked multiple aspects of thinking in single-step reasoning. This turns the entire reasoning process into prompt aggregation and prompt flow operations. Experiments show that our multi-modal model enhanced with AGoT soft-prompting achieves good results in several tasks such as text-image retrieval, visual question answering, and image recognition. In addition, we demonstrate that it has good domain generalization performance due to better reasoning.
翻訳日:2024-04-09 20:49:00 公開日:2024-04-06
# スクラッチによる計画的タスクの基礎モデル構築の事例

The Case for Developing a Foundation Model for Planning-like Tasks from Scratch ( http://arxiv.org/abs/2404.04540v1 )

ライセンス: Link先を確認
Biplav Srivastava, Vishal Pallagani, (参考訳) ファンデーションモデル(FM)は、自動計画とスケジューリング(APS)を含む多くのコンピューティング分野に革命をもたらした。 例えば、計画生成、言語翻訳、モデル構築、マルチエージェント計画、インタラクティブ計画、ヒューリスティックス最適化、ツール統合、脳に触発された計画などである。 APS以外にも、意図した目標を達成するための実行可能性のさまざまな保証を含む一連のアクションの生成を含む、多くの関連したタスクがあります。 しかし、以前の作品は、主に事前訓練された市販のFMと、オプションで微調整されたFMに焦点を当てていた。 本稿では,PLタスクをスクラッチから包括的に行うためのFMの必要性について論じ,設計上の考慮事項について考察する。 このようなFMがPL問題解決のための新しい効率的な道を開くのは、LSMがAPSのために作成しているのと同じようにである、と我々は主張する。

Foundation Models (FMs) have revolutionized many areas of computing, including Automated Planning and Scheduling (APS). For example, a recent study found them useful for planning problems: plan generation, language translation, model construction, multi-agent planning, interactive planning, heuristics optimization, tool integration, and brain-inspired planning. Besides APS, there are many seemingly related tasks involving the generation of a series of actions with varying guarantees of their executability to achieve intended goals, which we collectively call planning-like (PL) tasks like business processes, programs, workflows, and guidelines, where researchers have considered using FMs. However, previous works have primarily focused on pre-trained, off-the-shelf FMs and optionally fine-tuned them. This paper discusses the need for a comprehensive FM for PL tasks from scratch and explores its design considerations. We argue that such an FM will open new and efficient avenues for PL problem-solving, just like LLMs are creating for APS.
翻訳日:2024-04-09 20:49:00 公開日:2024-04-06
# BeyondScene: 事前拡散による高分解能人間中心のシーン生成

BeyondScene: Higher-Resolution Human-Centric Scene Generation With Pretrained Diffusion ( http://arxiv.org/abs/2404.04544v1 )

ライセンス: Link先を確認
Gwanghyun Kim, Hayeon Kim, Hoigi Seo, Dong Un Kang, Se Young Chun, (参考訳) 高解像度の人間中心シーンを細部とコントロールで生成することは、既存のテキスト・画像拡散モデルにとって依然として課題である。 この課題は、限られたトレーニング画像サイズ、テキストエンコーダ容量(限定トークン)、複数の人間を含む複雑なシーンを生成するのが本質的に難しいことに起因する。 現行の手法ではトレーニングサイズ制限に対処しようとしたが、深刻な人工物を持った人間中心のシーンがしばしば生み出された。 そこで我々は,既存の事前学習拡散モデルを用いて,テキストイメージ対応や自然性を備えた高解像度(8K以上)の人間中心シーンを生成する,事前制限を克服する新しいフレームワークであるBeyondSceneを提案する。 BeyondSceneは、まず、複数の人間のための重要な要素と拡散モデルのトークン限界を超えた詳細な説明に焦点をあてた詳細なベースイメージを生成し、その後、ベースイメージを高解像度の出力にシームレスに変換し、トレーニング画像サイズを超越し、私たちの提案した高周波注入前方拡散と適応関節拡散からなる新しいインスタンス認識階層的拡大プロセスを介して、テキストやインスタンスの詳細な認識を組み込む、段階的かつ階層的なアプローチを採用している。 BeyondSceneは、詳細なテキスト記述と自然性との対応という点で既存の手法を超越し、高解像度の人間中心のシーン作成における高度な応用を、コストのかかる再訓練なしに事前訓練された拡散モデルの能力を超えたものにする道を開いた。 プロジェクトページ: https://janeyeon.github.io/beyond-scene.com

Generating higher-resolution human-centric scenes with details and controls remains a challenge for existing text-to-image diffusion models. This challenge stems from limited training image size, text encoder capacity (limited tokens), and the inherent difficulty of generating complex scenes involving multiple humans. While current methods attempted to address training size limit only, they often yielded human-centric scenes with severe artifacts. We propose BeyondScene, a novel framework that overcomes prior limitations, generating exquisite higher-resolution (over 8K) human-centric scenes with exceptional text-image correspondence and naturalness using existing pretrained diffusion models. BeyondScene employs a staged and hierarchical approach to initially generate a detailed base image focusing on crucial elements in instance creation for multiple humans and detailed descriptions beyond token limit of diffusion model, and then to seamlessly convert the base image to a higher-resolution output, exceeding training image size and incorporating details aware of text and instances via our novel instance-aware hierarchical enlargement process that consists of our proposed high-frequency injected forward diffusion and adaptive joint diffusion. BeyondScene surpasses existing methods in terms of correspondence with detailed text descriptions and naturalness, paving the way for advanced applications in higher-resolution human-centric scene creation beyond the capacity of pretrained diffusion models without costly retraining. Project page: https://janeyeon.github.io/beyond-scene.
翻訳日:2024-04-09 20:39:11 公開日:2024-04-06
# TCAN:マルチモーダル感性分析のためのテキスト指向クロスアテンションネットワーク

TCAN: Text-oriented Cross Attention Network for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2404.04545v1 )

ライセンス: Link先を確認
Ming Zhou, Weize Quan, Ziqi Zhou, Kai Wang, Tong Wang, Dong-Ming Yan, (参考訳) 言語・視覚・音響モダリティを活用したマルチモーダル感性分析(MSA)の試み 以前のMSAアプローチによる顕著な性能にもかかわらず、固有の多モード不均一性の存在は、異なるモダリティの寄与が著しく変化するという課題を生じさせる。 過去の研究は、主に表現学習技術と特徴融合戦略の改善に焦点を当てた。 しかし、これらの取り組みの多くは、異なるモダリティ間の意味的豊かさの変化を見落とし、各モダリティを均一に扱った。 このアプローチは、弱いものの重要性を過度に強調しながら、強いモダリティの重要性を過小評価する可能性がある。 これらの知見に触発され,テキスト指向のクロスアテンションネットワーク(TCAN)を導入し,MSAにおけるテキストモダリティの主要な役割を強調した。 具体的には、各マルチモーダルサンプルに対して、3つのモーダルのアンアライメント配列を入力として、抽出したアンモダル特徴を視覚テキストと音響テキストのペアに割り当てる。 その後、テキストモダリティに自己注意を実装し、視覚的・音響的モダリティにテキストクエリによる相互意識を適用した。 ノイズ信号と冗長な特徴の影響を軽減するため,我々はゲート制御機構をフレームワークに組み込む。 さらに, バックプロパゲーションを通じて, 多様なモダリティにまたがる同種感情傾向の深い理解を得るために, 一助的共同学習を導入する。 実験の結果,TCANは2つのデータセット(CMU-MOSIとCMU-MOSEI)上で,最先端のMSA法より一貫して優れていた。

Multimodal Sentiment Analysis (MSA) endeavors to understand human sentiment by leveraging language, visual, and acoustic modalities. Despite the remarkable performance exhibited by previous MSA approaches, the presence of inherent multimodal heterogeneities poses a challenge, with the contribution of different modalities varying considerably. Past research predominantly focused on improving representation learning techniques and feature fusion strategies. However, many of these efforts overlooked the variation in semantic richness among different modalities, treating each modality uniformly. This approach may lead to underestimating the significance of strong modalities while overemphasizing the importance of weak ones. Motivated by these insights, we introduce a Text-oriented Cross-Attention Network (TCAN), emphasizing the predominant role of the text modality in MSA. Specifically, for each multimodal sample, by taking unaligned sequences of the three modalities as inputs, we initially allocate the extracted unimodal features into a visual-text and an acoustic-text pair. Subsequently, we implement self-attention on the text modality and apply text-queried cross-attention to the visual and acoustic modalities. To mitigate the influence of noise signals and redundant features, we incorporate a gated control mechanism into the framework. Additionally, we introduce unimodal joint learning to gain a deeper understanding of homogeneous emotional tendencies across diverse modalities through backpropagation. Experimental results demonstrate that TCAN consistently outperforms state-of-the-art MSA methods on two datasets (CMU-MOSI and CMU-MOSEI).
翻訳日:2024-04-09 20:39:11 公開日:2024-04-06
# 機能的MRIの頑健なスライス・ツー・ボリューム登録のための自己注意モデル

A self-attention model for robust rigid slice-to-volume registration of functional MRI ( http://arxiv.org/abs/2404.04546v1 )

ライセンス: Link先を確認
Samah Khawaled, Simon K. Warfield, Moti Freiman, (参考訳) 機能的磁気共鳴イメージング(fMRI)は神経科学において不可欠であり、脳疾患、治療モニタリング、脳機能マッピングの研究を可能にする。 しかし、fMRIスキャン中の頭部の動きは、スライス取得のショット間で発生し、歪み、偏りの分析、スキャン反復の必要性によるコスト上昇をもたらす可能性がある。 そのため、スライス・ツー・ボリューム登録(SVR)によるリフレクション・スライスレベルの動作補正が重要である。 従来の研究では、深層学習(DL)モデルを用いてSVRタスクに対処してきたが、スライスの入力スタックから生じる不確実性を見落とし、各スライスに重み付けやスコアを割り当てなかった。 本研究では,2次元fMRIスライスを3次元参照ボリュームに整合させるエンド・ツー・エンドのSVRモデルを提案する。 独立したスライスとボリュームエンコーダと自己アテンションモジュールを使用して、スライス毎にピクセルワイズスコアを割り当てる。 テストセットに属する27人の被験者から生成された合成剛性運動を含む200枚の画像について,Healthy Brain Network (HBN)データセットを用いて評価実験を行った。 実験の結果,本モデルでは,最先端の深層学習手法と比較して,アライメント精度において競争性能が向上していることがわかった(ユークリッド距離は0.93$ [mm]対1.86$ [mm])。 さらに,従来の反復法 (0.096$ sec. vs. $1.17$ sec.) と比較して,登録速度が大幅に向上した。 エンドツーエンドのSVRモデルは、fMRI取得時のリアルタイムヘッドモーショントラッキングを容易にし、入力の不確実性に対して信頼性と堅牢性を確保する。 トレーニングと評価を含むソースコードが近く提供される。

Functional Magnetic Resonance Imaging (fMRI) is vital in neuroscience, enabling investigations into brain disorders, treatment monitoring, and brain function mapping. However, head motion during fMRI scans, occurring between shots of slice acquisition, can result in distortion, biased analyses, and increased costs due to the need for scan repetitions. Therefore, retrospective slice-level motion correction through slice-to-volume registration (SVR) is crucial. Previous studies have utilized deep learning (DL) based models to address the SVR task; however, they overlooked the uncertainty stemming from the input stack of slices and did not assign weighting or scoring to each slice. In this work, we introduce an end-to-end SVR model for aligning 2D fMRI slices with a 3D reference volume, incorporating a self-attention mechanism to enhance robustness against input data variations and uncertainties. It utilizes independent slice and volume encoders and a self-attention module to assign pixel-wise scores for each slice. We conducted evaluation experiments on 200 images involving synthetic rigid motion generated from 27 subjects belonging to the test set, from the publicly available Healthy Brain Network (HBN) dataset. Our experimental results demonstrate that our model achieves competitive performance in terms of alignment accuracy compared to state-of-the-art deep learning-based methods (Euclidean distance of $0.93$ [mm] vs. $1.86$ [mm]). Furthermore, our approach exhibits significantly faster registration speed compared to conventional iterative methods ($0.096$ sec. vs. $1.17$ sec.). Our end-to-end SVR model facilitates real-time head motion tracking during fMRI acquisition, ensuring reliability and robustness against uncertainties in inputs. source code, which includes the training and evaluations, will be available soon.
翻訳日:2024-04-09 20:39:11 公開日:2024-04-06
# アンサンブル・マナーにおける癌検診における自然刺激型計算の露光

Exhaustive Exploitation of Nature-inspired Computation for Cancer Screening in an Ensemble Manner ( http://arxiv.org/abs/2404.04547v1 )

ライセンス: Link先を確認
Xubin Wang, Yunhe Wang, Zhiqing Ma, Ka-Chun Wong, Xiangtao Li, (参考訳) がんの正確なスクリーニングは、がんの検出と正確な治療選択に不可欠である。 しかし、遺伝子発現プロファイルと腫瘍の関係は、しばしば少数のバイオマーカー遺伝子に限られる。 自然に着想を得たアルゴリズムを用いた計算手法は予測遺伝子の選択に有望であるが、既存の手法は非効率な探索と多種多様なデータセットの一般化によって制限されている。 本研究では、遺伝子発現データからがん分類のためのアンサンブル学習を改善するために、進化最適化逆アンサンブル学習(EODE)と呼ばれるフレームワークを提案する。 EODE法は、選択的な特徴空間削減のための知的灰色のオオカミ最適化アルゴリズム、アンサンブルの多様性向上のためのガイド付きランダムインジェクションモデリング、および相乗的分類器の組み合わせのためのサブセットモデル最適化を組み合わせた。 様々ながん種を含む35の遺伝子発現ベンチマークデータセットに対して、広範囲にわたる実験を行った。 その結果、EODEは個々のモデルと従来型のモデルよりもスクリーニング精度が有意に向上した。 高度な特徴選択、指向する特殊モデリング、協調分類器アンサンブルの統合最適化は、現在の自然に触発されたアプローチにおける重要な課題に対処するのに役立つ。 これは、遺伝子発現バイオマーカーを用いた堅牢で一般化されたアンサンブル学習のための効果的なフレームワークを提供する。 具体的には、GithubでEODEソースコードをhttps://github.com/wangxb96/EODEで公開しました。

Accurate screening of cancer types is crucial for effective cancer detection and precise treatment selection. However, the association between gene expression profiles and tumors is often limited to a small number of biomarker genes. While computational methods using nature-inspired algorithms have shown promise in selecting predictive genes, existing techniques are limited by inefficient search and poor generalization across diverse datasets. This study presents a framework termed Evolutionary Optimized Diverse Ensemble Learning (EODE) to improve ensemble learning for cancer classification from gene expression data. The EODE methodology combines an intelligent grey wolf optimization algorithm for selective feature space reduction, guided random injection modeling for ensemble diversity enhancement, and subset model optimization for synergistic classifier combinations. Extensive experiments were conducted across 35 gene expression benchmark datasets encompassing varied cancer types. Results demonstrated that EODE obtained significantly improved screening accuracy over individual and conventionally aggregated models. The integrated optimization of advanced feature selection, directed specialized modeling, and cooperative classifier ensembles helps address key challenges in current nature-inspired approaches. This provides an effective framework for robust and generalized ensemble learning with gene expression biomarkers. Specifically, we have opened EODE source code on Github at https://github.com/wangxb96/EODE.
翻訳日:2024-04-09 20:39:11 公開日:2024-04-06
# 離散時空の諸問題

Matter in Discrete Space-Times ( http://arxiv.org/abs/2404.04548v1 )

ライセンス: Link先を確認
P. P. Divakaran, (参考訳) 離散時空のポインケア群のユニタリ表現は、連続体相対性理論におけるウィグナー法に従って構成される。 4-トーラスである運動量空間は、すべての物理現象が起こる時空のブリルアンゾーンと同一視される。 したがって、4-モメンタムは、プランク質量の順序の相互格子ベクトルのみを変調して保存し、それが消える時を除いて不変質量の概念が存在しないことを意味する。 特に、質量粒子の伝播は、非常に大きな(トランプランク的な)隆起の下で超光相を持つ。 この振る舞いは、現在の知識と矛盾しない初期の宇宙論の新たな特徴をもたらす。

The unitary representations of the Poincare group of a discrete space-time are constructed, following the Wigner method in continuum relativity. They can be interpreted as elementary particles with one significant new feature: the momentum space being the 4-torus is identified as the Brillouin zone of space-time where all physical phenomena occur. Consequently 4-momentum is defined and conserved only modulo a reciprocal lattice vector of the order of the Planck mass, implying that there is no notion of an invariant mass except when it vanishes. In particular the propagation of massive particles have superluminal phases under very large (trans-Planckian) boosts. This behaviour leads to new features in early cosmology which are not in conflict with current knowledge.
翻訳日:2024-04-09 20:39:11 公開日:2024-04-06
# アフィンエンコーダとデコーダを備えたスパイクニューラルネットワークによる効率的な学習

Efficient Learning Using Spiking Neural Networks Equipped With Affine Encoders and Decoders ( http://arxiv.org/abs/2404.04549v1 )

ライセンス: Link先を確認
A. Martina Neuman, Philipp Christian Petersen, (参考訳) スパイクニューラルネットワークに関連する学習問題について検討する。 具体的には、正のシナプス重みしか持たないアフィン時間エンコーダ、デコーダ、単純なスパイキングニューロンによるスパイキングニューラルネットワークの仮説セットを検討する。 重みの肯定性は、滑らかな関数の速度-最適近似や、次元の呪いを伴わない近似など、幅広い表現結果を可能にすることを実証する。 さらに、正重スパイクニューラルネットワークは、古典的被覆数に基づく一般化文を促進するパラメータに連続的に依存していることが示される。 最後に、一般化の観点からは、フィードフォワードニューラルネットワークや一般的なスパイクニューラルネットワークの以前の結果とは対照的に、この深さが一般化能力にほとんど、あるいは全く悪影響を及ぼさないことを観察する。

We study the learning problem associated with spiking neural networks. Specifically, we consider hypothesis sets of spiking neural networks with affine temporal encoders and decoders and simple spiking neurons having only positive synaptic weights. We demonstrate that the positivity of the weights continues to enable a wide range of expressivity results, including rate-optimal approximation of smooth functions or approximation without the curse of dimensionality. Moreover, positive-weight spiking neural networks are shown to depend continuously on their parameters which facilitates classical covering number-based generalization statements. Finally, we observe that from a generalization perspective, contrary to feedforward neural networks or previous results for general spiking neural networks, the depth has little to no adverse effect on the generalization capabilities.
翻訳日:2024-04-09 20:39:11 公開日:2024-04-06
# NPB-REC : 不確かさ推定を用いたアンダーサンプルMRIにおける非パラメトリックベイズディープラーニングアプローチ

NPB-REC: A Non-parametric Bayesian Deep-learning Approach for Undersampled MRI Reconstruction with Uncertainty Estimation ( http://arxiv.org/abs/2404.04550v1 )

ライセンス: Link先を確認
Samah Khawaled, Moti Freiman, (参考訳) アンサンプされたMRIデータから高品質な画像を再構成する能力は、MRIの時間分解能の向上と取得時間の短縮に不可欠である。 この課題に対して深層学習法が提案されているが,再構成画像の不確かさを定量化するための検証方法の欠如が臨床応用を妨げている。 非パラメトリック完全ベイズフレームワークであるNPB-RECを導入し,不確実性を考慮したアンサンプドデータからのMRI再構成を行った。 ネットワークパラメータの後方分布を特徴付けるために,Stochastic Gradient Langevin Dynamics を用いて訓練を行った。 これにより、再構成画像の品質を向上し、再構成画像の不確かさを定量化できる。 我々は,高速MRI課題から得られたマルチコイルMRIデータセットに対するアプローチの有効性を実証し,ベースラインであるEnd-to-End Variational Network (E2E-VarNet)と比較した。 提案手法は,PSNR と SSIM (34.55$,$0.908$ vs. $33.08$,$0.897$,$p<0.01$,Acceler rate $R=8$) による復元精度の基準値よりも優れ,復元誤差と相関する不確実性対策(ピアソン相関,$R=0.94$,$R=0.91$)を提供する。 さらに,本手法は解剖学的分布シフトに対して,より優れた一般化能力を示す(PSNRとSSIMは32.38ドル,0.849ドル対$1.63ドル,$0.836ドル,$0.836ドル,$p<0.01ドル,脳データトレーニング,膝データ推論,アクセラレーションレート$R=8ドル)。 NPB-RECは、アンダーサンプルデータからのMRI再構成のためのディープラーニングベースの手法の安全な利用を促進する可能性がある。 コードとトレーニングされたモデルは、 \url{https://github.com/samahkh/NPB-REC}で入手できる。

The ability to reconstruct high-quality images from undersampled MRI data is vital in improving MRI temporal resolution and reducing acquisition times. Deep learning methods have been proposed for this task, but the lack of verified methods to quantify the uncertainty in the reconstructed images hampered clinical applicability. We introduce "NPB-REC", a non-parametric fully Bayesian framework, for MRI reconstruction from undersampled data with uncertainty estimation. We use Stochastic Gradient Langevin Dynamics during training to characterize the posterior distribution of the network parameters. This enables us to both improve the quality of the reconstructed images and quantify the uncertainty in the reconstructed images. We demonstrate the efficacy of our approach on a multi-coil MRI dataset from the fastMRI challenge and compare it to the baseline End-to-End Variational Network (E2E-VarNet). Our approach outperforms the baseline in terms of reconstruction accuracy by means of PSNR and SSIM ($34.55$, $0.908$ vs. $33.08$, $0.897$, $p<0.01$, acceleration rate $R=8$) and provides uncertainty measures that correlate better with the reconstruction error (Pearson correlation, $R=0.94$ vs. $R=0.91$). Additionally, our approach exhibits better generalization capabilities against anatomical distribution shifts (PSNR and SSIM of $32.38$, $0.849$ vs. $31.63$, $0.836$, $p<0.01$, training on brain data, inference on knee data, acceleration rate $R=8$). NPB-REC has the potential to facilitate the safe utilization of deep learning-based methods for MRI reconstruction from undersampled data. Code and trained models are available at \url{https://github.com/samahkh/NPB-REC}.
翻訳日:2024-04-09 20:39:11 公開日:2024-04-06
# 半教師付きランドマーク検出のための自己学習の再考:選択不要アプローチ

Rethinking Self-training for Semi-supervised Landmark Detection: A Selection-free Approach ( http://arxiv.org/abs/2404.04556v1 )

ライセンス: Link先を確認
Haibo Jin, Haoxuan Che, Hao Chen, (参考訳) 自己学習は、半教師付き学習においてシンプルだが効果的な方法であり、疑似ラベルの選択は、確認バイアスを扱う上で重要な役割を果たす。 その人気にもかかわらず、ランドマーク検出に自己学習を適用することは、3つの問題に直面している。 1) 選択された確実な疑似ラベルには、しばしばデータバイアスが含まれており、それがモデルの性能を損なう可能性がある。 2) 局所化作業がうるさい擬似ラベルに敏感であるため, サンプル選択の適切なしきい値を決定するのは容易ではない。 3) 座標回帰は信頼性を出力せず, 選択に基づく自己学習が不可能である。 上記の課題に対処するために,明示的な擬似ラベル選択を必要としない自己評価型ランドマーク検出法(STLD)を提案する。 代わりにSTLDは、確認バイアスに対処するタスクカリキュラムを構築する。 前者はより良いモデル初期化を提供するためのカリキュラムの最初のタスクであり、後者は後段のラウンドでさらに追加され、擬似ラベルを粗い方法で直接活用する。 3つの顔と1つの医学的ランドマーク検出ベンチマークの実験は、STLDが半教師付き設定と全監督型設定の両方で既存の手法を一貫して上回っていることを示している。

Self-training is a simple yet effective method for semi-supervised learning, during which pseudo-label selection plays an important role for handling confirmation bias. Despite its popularity, applying self-training to landmark detection faces three problems: 1) The selected confident pseudo-labels often contain data bias, which may hurt model performance; 2) It is not easy to decide a proper threshold for sample selection as the localization task can be sensitive to noisy pseudo-labels; 3) coordinate regression does not output confidence, making selection-based self-training infeasible. To address the above issues, we propose Self-Training for Landmark Detection (STLD), a method that does not require explicit pseudo-label selection. Instead, STLD constructs a task curriculum to deal with confirmation bias, which progressively transitions from more confident to less confident tasks over the rounds of self-training. Pseudo pretraining and shrink regression are two essential components for such a curriculum, where the former is the first task of the curriculum for providing a better model initialization and the latter is further added in the later rounds to directly leverage the pseudo-labels in a coarse-to-fine manner. Experiments on three facial and one medical landmark detection benchmark show that STLD outperforms the existing methods consistently in both semi- and omni-supervised settings.
翻訳日:2024-04-09 20:39:11 公開日:2024-04-06
# 散在シーンにおけるロバストなマルチインスタンスポイントクラウド登録のための学習事例対応

Learning Instance-Aware Correspondences for Robust Multi-Instance Point Cloud Registration in Cluttered Scenes ( http://arxiv.org/abs/2404.04557v1 )

ライセンス: Link先を確認
Zhiyuan Yu, Zheng Qin, Lintao Zheng, Kai Xu, (参考訳) マルチインスタンスポイントクラウド登録は、シーンポイントクラウド内のモデルポイントクラウドの複数のインスタンスのポーズを推定する。 正確な点対応を抽出することは問題の中心である。 既存のアプローチは通常、インスタンスの分離を見越して、シーンポイントクラウド全体を扱います。 したがって、ポイントの特徴は、背景または異なるインスタンスから他のポイントによって簡単に汚染され、特に散らかったシーンにおいて、別々のインスタンスに対して不正確な対応が生じる。 本研究では,MIRETR,Multi-Instance Registration TRansformerを提案する。 粗いレベルでは、インスタンス対応のスーパーポイントの特徴を共同で学習し、インスタンスごとのマスクを予測する。 例マスクでは、関係するインスタンスの外からの影響を最小限に抑え、信頼性の高いスーパーポイント対応を抽出することができる。 スーパーポイント対応は、インスタンスマスクに従って細かなレベルでインスタンス候補に拡張される。 最終的に、最終的な登録を得るために効率的な候補選択および改良アルゴリズムが考案された。 3つの公開ベンチマークに関する大規模な実験は、我々のアプローチの有効性を実証している。 特にMIRETRは、挑戦的なROBIベンチマークでF1スコアで16.6ポイント上回る。 コードとモデルはhttps://github.com/zhiyuanYU134/MIRETRで公開されている。

Multi-instance point cloud registration estimates the poses of multiple instances of a model point cloud in a scene point cloud. Extracting accurate point correspondence is to the center of the problem. Existing approaches usually treat the scene point cloud as a whole, overlooking the separation of instances. Therefore, point features could be easily polluted by other points from the background or different instances, leading to inaccurate correspondences oblivious to separate instances, especially in cluttered scenes. In this work, we propose MIRETR, Multi-Instance REgistration TRansformer, a coarse-to-fine approach to the extraction of instance-aware correspondences. At the coarse level, it jointly learns instance-aware superpoint features and predicts per-instance masks. With instance masks, the influence from outside of the instance being concerned is minimized, such that highly reliable superpoint correspondences can be extracted. The superpoint correspondences are then extended to instance candidates at the fine level according to the instance masks. At last, an efficient candidate selection and refinement algorithm is devised to obtain the final registrations. Extensive experiments on three public benchmarks demonstrate the efficacy of our approach. In particular, MIRETR outperforms the state of the arts by 16.6 points on F1 score on the challenging ROBI benchmark. Code and models are available at https://github.com/zhiyuanYU134/MIRETR.
翻訳日:2024-04-09 20:39:11 公開日:2024-04-06
# 2次元(2次元)グラフ畳み込みによるスペクトルGNN

Spectral GNN via Two-dimensional (2-D) Graph Convolution ( http://arxiv.org/abs/2404.04559v1 )

ライセンス: Link先を確認
Guoming Li, Jian Yang, Shangsong Liang, Dongsheng Luo, (参考訳) スペクトルグラフニューラルネットワーク(GNN)はグラフ学習において大きな成功を収めている。 スペクトルGNNの重要な部分として、スペクトルグラフ畳み込みは、グラフデータにおいて重要な周波数情報を抽出し、下流タスクにおけるスペクトルGNNの性能を向上する。 しかし,本論文では,既存のスペクトルGNNがスペクトルグラフ畳み込みの実行において重要な欠点を残していることを示す。 具体的には、スペクトルグラフの畳み込みを目標出力への構築操作として考慮し、既存の一般的な畳み込みパラダイムは入力グラフ信号に穏やかな条件で目標出力を構築することができないことを証明し、スペクトルGNNを最適以下の解に分解する。 この問題に対処するため、より一般的な2次元(2次元)信号畳み込みの観点からスペクトルグラフ畳み込みを再考し、2次元グラフ畳み込みという新しい畳み込みパラダイムを提案する。 2次元グラフ畳み込みは既存のグラフ畳み込みパラダイムを統一し、任意の目標出力を構築することができることを示す。 提案した2次元グラフ畳み込みに基づいて,チェビシェフ補間による2次元グラフ畳み込みの効率的かつ効果的なGNN実装であるChebNet2Dを提案する。 ベンチマークデータセットに関する大規模な実験は、ChebNet2Dの有効性と効率を実証している。

Spectral Graph Neural Networks (GNNs) have achieved tremendous success in graph learning. As an essential part of spectral GNNs, spectral graph convolution extracts crucial frequency information in graph data, leading to superior performance of spectral GNNs in downstream tasks. However, in this paper, we show that existing spectral GNNs remain critical drawbacks in performing the spectral graph convolution. Specifically, considering the spectral graph convolution as a construction operation towards target output, we prove that existing popular convolution paradigms cannot construct the target output with mild conditions on input graph signals, causing spectral GNNs to fall into suboptimal solutions. To address the issues, we rethink the spectral graph convolution from a more general two-dimensional (2-D) signal convolution perspective and propose a new convolution paradigm, named 2-D graph convolution. We prove that 2-D graph convolution unifies existing graph convolution paradigms, and is capable to construct arbitrary target output. Based on the proposed 2-D graph convolution, we further propose ChebNet2D, an efficient and effective GNN implementation of 2-D graph convolution through applying Chebyshev interpolation. Extensive experiments on benchmark datasets demonstrate both effectiveness and efficiency of the ChebNet2D.
翻訳日:2024-04-09 20:39:11 公開日:2024-04-06
# Co-Occ:マルチモーダル3次元セマンティック動作予測のためのボリュームレンダリング規則化による明示的特徴融合の結合

Co-Occ: Coupling Explicit Feature Fusion with Volume Rendering Regularization for Multi-Modal 3D Semantic Occupancy Prediction ( http://arxiv.org/abs/2404.04561v1 )

ライセンス: Link先を確認
Jingyi Pan, Zipeng Wang, Lin Wang, (参考訳) 3Dセマンティック占有予測は、自動運転分野における重要な課題である。 近年のアプローチは、単一モードでの3Dセマンティック占有率予測に大きな進歩をもたらした。 しかし、マルチモーダルなセマンティック占有予測手法は、異なるモダリティデータの融合時に生じるモダリティの不均一性、モダリティの不整合、および不十分なモダリティ相互作用に対処する上で困難に直面しており、重要な幾何学的およびセマンティックな情報が失われる可能性がある。 この手紙は、新しいマルチモーダル、すなわちCo-Occと呼ばれるLiDAR-camera 3Dセマンティック占有予測フレームワークを提示し、これは暗黙のボリュームレンダリング規則化と明示的なLiDAR-camera特徴融合を結合している。 キーとなる洞察は、機能空間におけるボリュームレンダリングは、3D LiDARスイープと2D画像のギャップを十分に埋めると同時に、LiDARカメラで融合したボリューム表現を強化する物理的な正規化として機能するということである。 具体的には、K-nearest neighbors (KNN)サーチにより、隣接するカメラ機能を組み込むことで、LiDAR機能を明示的に拡張するGeometric- and Semantic-aware Fusion (GSFusion)モジュールを提案する。 次に,画像面に融合した特徴を投影するためにボリュームレンダリングを用い,色と深度マップを再構成する。 これらのマップは、カメラからの入力画像と、LiDARから導出される深さ推定によって監視される。 一般的なnuScenesとSemanticKITTIベンチマークの大規模な実験により、我々のCo-Occの3Dセマンティック占有予測の有効性が検証された。 プロジェクトのページはhttps://rorisis.github.io/Co-Occ_project-page/.comで公開されている。

3D semantic occupancy prediction is a pivotal task in the field of autonomous driving. Recent approaches have made great advances in 3D semantic occupancy predictions on a single modality. However, multi-modal semantic occupancy prediction approaches have encountered difficulties in dealing with the modality heterogeneity, modality misalignment, and insufficient modality interactions that arise during the fusion of different modalities data, which may result in the loss of important geometric and semantic information. This letter presents a novel multi-modal, i.e., LiDAR-camera 3D semantic occupancy prediction framework, dubbed Co-Occ, which couples explicit LiDAR-camera feature fusion with implicit volume rendering regularization. The key insight is that volume rendering in the feature space can proficiently bridge the gap between 3D LiDAR sweeps and 2D images while serving as a physical regularization to enhance LiDAR-camera fused volumetric representation. Specifically, we first propose a Geometric- and Semantic-aware Fusion (GSFusion) module to explicitly enhance LiDAR features by incorporating neighboring camera features through a K-nearest neighbors (KNN) search. Then, we employ volume rendering to project the fused feature back to the image planes for reconstructing color and depth maps. These maps are then supervised by input images from the camera and depth estimations derived from LiDAR, respectively. Extensive experiments on the popular nuScenes and SemanticKITTI benchmarks verify the effectiveness of our Co-Occ for 3D semantic occupancy prediction. The project page is available at https://rorisis.github.io/Co-Occ_project-page/.
翻訳日:2024-04-09 20:39:11 公開日:2024-04-06
# 1次元画像から3次元画像への拡散時間計算

Diffusion Time-step Curriculum for One Image to 3D Generation ( http://arxiv.org/abs/2404.04562v1 )

ライセンス: Link先を確認
Xuanyu Yi, Zike Wu, Qingshan Xu, Pan Zhou, Joo-Hwee Lim, Hanwang Zhang, (参考訳) スコア蒸留サンプリング~(SDS)は, textbf{single}画像から3Dオブジェクトを再構成する際, 目に見えない視点の欠如を克服するために広く採用されている。 教師として事前訓練された2D拡散モデルを利用して、学生の3Dモデルの再構築を指導する。 彼らの顕著な成功にもかかわらず、SDSベースの手法は、しばしば幾何学的アーティファクトやテクスチャ飽和に遭遇する。 学習者の知識蒸留をあらゆる時間ステップで等しく扱い、粗くきめ細かなモデリングを行う。 そこで本稿では,教師モデルと学生モデルの両方が,時間段階のカリキュラムと密接な連携を図ったDiffusion Time-step Curriculum One-image-to-3D Pipeline(DTC123)を提案する。 NeRF4、RealFusion15、GSO、Level50ベンチマークの大規模な実験により、DTC123は多視点一貫した高品質で多様な3Dアセットを生成できることが示された。 コードやその他の世代のデモはhttps://github.com/yxymessi/DTC123.comで公開される。

Score distillation sampling~(SDS) has been widely adopted to overcome the absence of unseen views in reconstructing 3D objects from a \textbf{single} image. It leverages pre-trained 2D diffusion models as teacher to guide the reconstruction of student 3D models. Despite their remarkable success, SDS-based methods often encounter geometric artifacts and texture saturation. We find out the crux is the overlooked indiscriminate treatment of diffusion time-steps during optimization: it unreasonably treats the student-teacher knowledge distillation to be equal at all time-steps and thus entangles coarse-grained and fine-grained modeling. Therefore, we propose the Diffusion Time-step Curriculum one-image-to-3D pipeline (DTC123), which involves both the teacher and student models collaborating with the time-step curriculum in a coarse-to-fine manner. Extensive experiments on NeRF4, RealFusion15, GSO and Level50 benchmark demonstrate that DTC123 can produce multi-view consistent, high-quality, and diverse 3D assets. Codes and more generation demos will be released in https://github.com/yxymessi/DTC123.
翻訳日:2024-04-09 20:39:11 公開日:2024-04-06
# 文脈認識による映像要約の強化

Enhancing Video Summarization with Context Awareness ( http://arxiv.org/abs/2404.04564v1 )

ライセンス: Link先を確認
Hai-Dang Huynh-Lam, Ngoc-Phuong Ho-Thi, Minh-Triet Tran, Trung-Nghia Le, (参考訳) ビデオ要約は、現在利用可能な膨大な量のビデオコンテンツから関連情報を効率的に閲覧・取得することを目的とした重要な研究分野である。 マルチメディアデータの指数的成長に伴い、ビデオから意味のある表現を抽出する能力が不可欠になっている。 ビデオ要約技術は、ビデオの本質をキャプチャするキーフレーム、ショット、セグメントを選択することで、簡潔な要約を自動的に生成する。 このプロセスは、ビデオ監視、教育、エンターテイメント、ソーシャルメディアなど、様々な応用の効率性と精度を向上させる。 ビデオ要約の重要性にもかかわらず、多様で代表的なデータセットが欠如しており、包括的な評価とアルゴリズムのベンチマークを妨げている。 既存の評価指標は、ビデオ要約の複雑さを完全に捉えることができず、正確なアルゴリズム評価を制限し、フィールドの進行を妨げている。 データ不足を克服し、評価を改善するために、映像データ構造と情報を活用して情報的要約を生成する教師なしアプローチを提案する。 固定アノテーションから離れることによって、我々のフレームワークは代表的な要約を効果的に生成できる。 さらに,映像要約に特化した革新的な評価パイプラインを提案する。 人間の参加者は、生成した要約を真実の要約と比較し、その情報性を評価する。 この人間中心のアプローチは、提案手法の有効性に関する貴重な洞察を提供する。 実験結果から,我々のトレーニングフリーフレームワークは既存の教師なし手法よりも優れており,最先端の教師付き手法と比較して競争的な結果が得られることが示された。

Video summarization is a crucial research area that aims to efficiently browse and retrieve relevant information from the vast amount of video content available today. With the exponential growth of multimedia data, the ability to extract meaningful representations from videos has become essential. Video summarization techniques automatically generate concise summaries by selecting keyframes, shots, or segments that capture the video's essence. This process improves the efficiency and accuracy of various applications, including video surveillance, education, entertainment, and social media. Despite the importance of video summarization, there is a lack of diverse and representative datasets, hindering comprehensive evaluation and benchmarking of algorithms. Existing evaluation metrics also fail to fully capture the complexities of video summarization, limiting accurate algorithm assessment and hindering the field's progress. To overcome data scarcity challenges and improve evaluation, we propose an unsupervised approach that leverages video data structure and information for generating informative summaries. By moving away from fixed annotations, our framework can produce representative summaries effectively. Moreover, we introduce an innovative evaluation pipeline tailored specifically for video summarization. Human participants are involved in the evaluation, comparing our generated summaries to ground truth summaries and assessing their informativeness. This human-centric approach provides valuable insights into the effectiveness of our proposed techniques. Experimental results demonstrate that our training-free framework outperforms existing unsupervised approaches and achieves competitive results compared to state-of-the-art supervised methods.
翻訳日:2024-04-09 20:39:11 公開日:2024-04-06
# SportsHHI:スポーツビデオにおける人間と人間のインタラクション検出のためのデータセット

SportsHHI: A Dataset for Human-Human Interaction Detection in Sports Videos ( http://arxiv.org/abs/2404.04565v1 )

ライセンス: Link先を確認
Tao Wu, Runyu He, Gangshan Wu, Limin Wang, (参考訳) 映像シーングラフ生成のような映像に基づく視覚的関係検出タスクは、きめ細かい映像理解において重要な役割を果たす。 しかし、現在の映像関係検出データセットには、この分野の研究の進展を妨げる2つの主な制限がある。 第一に、彼らは多人数シナリオにおける複雑な人間と人間の相互作用を探求しない。 第2に、既存のデータセットの関係型は比較的低レベルなセマンティクスを持ち、詳細な時空間推論を必要とせず、外観や単純な事前情報によって認識されることが多い。 それでも、スポーツや監視ビデオのような複雑な多人数ビデオを理解するためには、人間間の高度な対話を理解することが不可欠である。 この問題に対処するために,ビデオ人間と人間のインタラクション検出という新たな視覚的関係検出タスクを提案し,それのためにSportsHHIというデータセットを構築した。 スポーツHHIには、バスケットボールとバレーボールのハイレベルな相互作用クラスが34ある。 118,075人のバウンディングボックスと50,649のインタラクションインスタンスが11,398のキーフレームに注釈付けされている。 これを評価するために,2段階のベースライン法を提案し,人間と人間の相互作用検出を成功させる上で重要な要素を明らかにするための広範な実験を行った。 我々は,SportsHHIがビデオにおけるヒューマンインタラクション理解の研究を刺激し,ビデオ視覚関係検出における時空間モデリング技術の開発を促進することを願っている。

Video-based visual relation detection tasks, such as video scene graph generation, play important roles in fine-grained video understanding. However, current video visual relation detection datasets have two main limitations that hinder the progress of research in this area. First, they do not explore complex human-human interactions in multi-person scenarios. Second, the relation types of existing datasets have relatively low-level semantics and can be often recognized by appearance or simple prior information, without the need for detailed spatio-temporal context reasoning. Nevertheless, comprehending high-level interactions between humans is crucial for understanding complex multi-person videos, such as sports and surveillance videos. To address this issue, we propose a new video visual relation detection task: video human-human interaction detection, and build a dataset named SportsHHI for it. SportsHHI contains 34 high-level interaction classes from basketball and volleyball sports. 118,075 human bounding boxes and 50,649 interaction instances are annotated on 11,398 keyframes. To benchmark this, we propose a two-stage baseline method and conduct extensive experiments to reveal the key factors for a successful human-human interaction detector. We hope that SportsHHI can stimulate research on human interaction understanding in videos and promote the development of spatio-temporal context modeling techniques in video visual relation detection.
翻訳日:2024-04-09 20:39:11 公開日:2024-04-06
# ソフトウェアエンジニアリングのための効率的でグリーンな大規模言語モデル - ビジョンと道の先

Efficient and Green Large Language Models for Software Engineering: Vision and the Road Ahead ( http://arxiv.org/abs/2404.04566v1 )

ライセンス: Link先を確認
Jieke Shi, Zhou Yang, David Lo, (参考訳) 大規模言語モデル(LLM)は、最近、様々なソフトウェアエンジニアリングタスクにおいて顕著な能力を示し、ソフトウェアエンジニアリングのための大規模言語モデル(LLM4SE)の分野を急速に発展させた。 しかし、最小限の時間とメモリ資源を必要とする効率的なLSM4SEソリューションや、エネルギー消費と二酸化炭素排出量を減らすグリーンLSM4SEソリューションの開発には、限られた注意が払われている。 この2030年のソフトウェアエンジニアリングのポジションペーパーは、LLM4SEの効率性と緑度に研究コミュニティの焦点を向け、この目標を達成するための潜在的研究の方向性を共有することを目的としている。 LLM4SEの意義を簡潔に概説し、効率的でグリーンなLLM4SEソリューションの必要性を強調している。 続いて,LLM4SEがソフトウェア工学ツールの展望に革命をもたらし,産業,個人実践者,社会といった様々な利害関係者に利益をもたらす未来への展望を示す。 本稿は、今後の研究のロードマップを概説し、研究コミュニティが追求すべき具体的な研究パスと潜在的な解決策を概説する。 この論文は、決定的なガイドになることを意図したものではないが、ソフトウェア工学の未来の中心的な要素として、効率的でグリーンなLSM4SEを確立するという究極の目標を掲げ、さらなる進歩を促すことを目的としている。

Large Language Models (LLMs) have recently shown remarkable capabilities in various software engineering tasks, spurring the rapid development of the Large Language Models for Software Engineering (LLM4SE) area. However, limited attention has been paid to crafting efficient LLM4SE solutions that demand minimal time and memory resources, as well as green LLM4SE solutions that reduce energy consumption and carbon emissions. This 2030 Software Engineering position paper aims to redirect the focus of the research community towards the efficiency and greenness of LLM4SE, while also sharing potential research directions to achieve this goal. It commences with a brief overview of the significance of LLM4SE and highlights the need for efficient and green LLM4SE solutions. Subsequently, the paper presents a vision for a future where efficient and green LLM4SE revolutionizes the software engineering tool landscape, benefiting various stakeholders, including industry, individual practitioners, and society. The paper then delineates a roadmap for future research, outlining specific research paths and potential solutions for the research community to pursue. While not intended to be a definitive guide, the paper aims to inspire further progress, with the ultimate goal of establishing efficient and green LLM4SE as a central element in the future of software engineering.
翻訳日:2024-04-09 20:39:11 公開日:2024-04-06
# AIoTデバイスにおける軽量マルウェア検出モデルの最適化

Optimization of Lightweight Malware Detection Models For AIoT Devices ( http://arxiv.org/abs/2404.04567v1 )

ライセンス: Link先を確認
Felicia Lo, Shin-Ming Cheng, Rafael Kaliski, (参考訳) マルウェアの侵入は、IoT(Internet of Things)やIoT(Artificial Intelligence of Things)デバイスにおいて問題となる。 デバイスが感染した場合、エコシステム全体が汚染される可能性がある。 マルウェアやネットワーク侵入を検出するために、さまざまな機械学習(ML)モデルがデプロイされているが、一般的には、堅牢な高精度モデルは、弱い学習者が定義するより堅牢でないモデルに比べて、すべてのIoTデバイスに存在しないリソースを必要とする傾向がある。 この問題に対処するため、ファディラはメタラーナーアンサンブルモデルを提案し、弱い学習者MLモデルに固有のより堅牢な予測結果から、高度に堅牢なメタラーナーアンサンブルモデルを生成する。 この研究の主な問題は、処理能力、ストレージ、メモリ(必要なライブラリは、迅速にローエンドのAIoTデバイスのリソースを消費する)を含む限られたリソースのために、ローエンドのAIoTデバイスにデプロイできないことである。 各最適化段階に関連するライブラリとMLモデルのメモリ要件を示し、ローエンドのAIoTデバイスでは、現在のMLモデルの最適化が必要であることを強調する。 その結果,MLモデルを実行するハイエンドのAIoTデバイスから,同様の精度と偽陽性率(FPR)の測定値を得ることができ,推論時間が少なく,メモリフットプリントも小さくなった。

Malware intrusion is problematic for Internet of Things (IoT) and Artificial Intelligence of Things (AIoT) devices as they often reside in an ecosystem of connected devices, such as a smart home. If any devices are infected, the whole ecosystem can be compromised. Although various Machine Learning (ML) models are deployed to detect malware and network intrusion, generally speaking, robust high-accuracy models tend to require resources not found in all IoT devices, compared to less robust models defined by weak learners. In order to combat this issue, Fadhilla proposed a meta-learner ensemble model comprised of less robust prediction results inherent with weak learner ML models to produce a highly robust meta-learning ensemble model. The main problem with the prior research is that it cannot be deployed in low-end AIoT devices due to the limited resources comprising processing power, storage, and memory (the required libraries quickly exhaust low-end AIoT devices' resources.) Hence, this research aims to optimize the proposed super learner meta-learning ensemble model to make it viable for low-end AIoT devices. We show the library and ML model memory requirements associated with each optimization stage and emphasize that optimization of current ML models is necessitated for low-end AIoT devices. Our results demonstrate that we can obtain similar accuracy and False Positive Rate (FPR) metrics from high-end AIoT devices running the derived ML model, with a lower inference duration and smaller memory footprint.
翻訳日:2024-04-09 20:29:27 公開日:2024-04-06
# 持続可能なMLOpsの構築に向けて - 自己適応アプローチ

Towards Architecting Sustainable MLOps: A Self-Adaptation Approach ( http://arxiv.org/abs/2404.04572v1 )

ライセンス: Link先を確認
Hiya Bhatt, Shrikara Arun, Adyansh Kakran, Karthik Vaidhyanathan, (参考訳) 今日のダイナミックな技術状況において、サステナビリティは特に機械学習対応システム(MLS)のアーキテクチャに関して重要な関心事として現れています。 多くのMLモデルは本番環境への移行に失敗し、主にデータのバリエーション、要求の進化、モデルの不安定さによる不確実性によって妨げられる。 機械学習オペレーション(MLOps)は、MLSの適応性と技術的持続性を向上させることで、有望なソリューションを提供する。 しかし、MLOps自体が環境への影響、技術的保守、経済的懸念に関連する課題に直面している。 長年にわたり、不確実性に対処する潜在的な解決策として自己適応が出現してきた。 本稿では,MLOpsの持続可能性を高めるためのMAPE-Kループを通じて,MLOpsアーキテクチャに自己適応原則を組み込んだ新しいアプローチを提案する。 データ、モデルダイナミクス、環境変動などの不確実性に自律的に対応することで、設計時にアーキテクトが特定した特定のMLOpsパイプラインの持続可能性に関する懸念に対処することを目的としています。 さらに,スマートシティのユースケースに対して,我々のアプローチの能力を示す手法を実装した。

In today's dynamic technological landscape, sustainability has emerged as a pivotal concern, especially with respect to architecting Machine Learning enabled Systems (MLS). Many ML models fail in transitioning to production, primarily hindered by uncertainties due to data variations, evolving requirements, and model instabilities. Machine Learning Operations (MLOps) offers a promising solution by enhancing adaptability and technical sustainability in MLS. However, MLOps itself faces challenges related to environmental impact, technical maintenance, and economic concerns. Over the years, self-adaptation has emerged as a potential solution to handle uncertainties. This paper introduces a novel approach employing self-adaptive principles integrated into the MLOps architecture through a MAPE-K loop to bolster MLOps sustainability. By autonomously responding to uncertainties, including data, model dynamics, and environmental variations, our approach aims to address the sustainability concerns of a given MLOps pipeline identified by an architect at design time. Further, we implement the method for a Smart City use case to display the capabilities of our approach.
翻訳日:2024-04-09 20:29:27 公開日:2024-04-06
# 冷却か冷却か? 温度ネットワークがDROによる大型ファンデーションモデルを発表

To Cool or not to Cool? Temperature Network Meets Large Foundation Models via DRO ( http://arxiv.org/abs/2404.04575v1 )

ライセンス: Link先を確認
Zi-Hao Qiu, Siqi Guo, Mao Xu, Tuo Zhao, Lijun Zhang, Tianbao Yang, (参考訳) 温度パラメータは、大きな言語モデル(LLM)やCLIPモデルのような大きな基礎モデル(LFM)によるトレーニングおよび/または推論において重要な役割を果たす。 特に、次のトークン生成に不可欠であるLSMのソフトマックス関数のロジットを調整し、CLIPモデルのトレーニングにおける対照的な損失の類似性を拡大する。 重要な疑問が残る: LFMを強化するために、入力データのパーソナライズされた温度を予測するためにニューラルネットワークを学ぶことは可能か? 本稿では,小型だが一般化可能な温度予測ネットワーク(TempNet)を学習し,LFMを改善するためのフレームワークを提案する。 提案手法は,制約付き分散ロバスト最適化(DRO)に基づくロバストな損失を持つ新しい学習フレームワークと,理論的なインスピレーションを備えたTempNetから構成される。 TempNetは、スクラッチから大きなファンデーションモデルと一緒にトレーニングするか、事前訓練されたファンデーションモデルから別々に学習することができる。 LFMのトレーニングを促進するためにパーソナライズされた温度を予測するだけでなく、新しいタスクへの一般化と転送も可能である。 LLMとCLIPモデルに関する我々の実験は、TempNetが既存のソリューションやモデルの性能を大幅に改善することを示した。 この論文で実験結果を再現するコードはhttps://github.com/zhqiu/TempNet.comにある。

The temperature parameter plays a profound role during training and/or inference with large foundation models (LFMs) such as large language models (LLMs) and CLIP models. Particularly, it adjusts the logits in the softmax function in LLMs, which is crucial for next token generation, and it scales the similarities in the contrastive loss for training CLIP models. A significant question remains: Is it viable to learn a neural network to predict a personalized temperature of any input data for enhancing LFMs"? In this paper, we present a principled framework for learning a small yet generalizable temperature prediction network (TempNet) to improve LFMs. Our solution is composed of a novel learning framework with a robust loss underpinned by constrained distributionally robust optimization (DRO), and a properly designed TempNet with theoretical inspiration. TempNet can be trained together with a large foundation model from scratch or learned separately given a pretrained foundation model. It is not only useful for predicting personalized temperature to promote the training of LFMs but also generalizable and transferable to new tasks. Our experiments on LLMs and CLIP models demonstrate that TempNet greatly improves the performance of existing solutions or models, e.g. Table 1. The code to reproduce the experimental results in this paper can be found at https://github.com/zhqiu/TempNet.
翻訳日:2024-04-09 20:29:27 公開日:2024-04-06
# 機械学習を用いた物体検出における抽出モデル最適化のためのGLCMに基づく特徴結合

GLCM-Based Feature Combination for Extraction Model Optimization in Object Detection Using Machine Learning ( http://arxiv.org/abs/2404.04578v1 )

ライセンス: Link先を確認
Florentina Tatrin Kurniati, Daniel HF Manongga, Eko Sediyono, Sri Yulianto Joko Prasetyo, Roy Rudolf Huizen, (参考訳) 現代技術の時代には,Gray Level Co-occurrence Matrix (GLCM) 抽出法がオブジェクト認識プロセスにおいて重要な役割を担っている。 セキュリティ監視や自動運転車のナビゲーションなど、リアルタイムのシナリオでアプリケーションを見つける。 計算効率はリアルタイム物体検出において重要な要素となる。 したがって、複雑さが低く、精度が良好な検出モデルが必要である。 本研究の目的は,GLCMフレームワーク内で適切な特徴を選択することにより,計算効率を向上させることである。 K-Nearest Neighbours(K-NN)とSVM(Support Vector Machine)の2つの分類モデルが採用され、計算複雑性の観点からはK-Nearest Neighbours(K-NN)がSVMより優れていることが示された。 具体的には、K-NNは相関、エネルギー、均一性の組み合わせを利用する場合、100%の精度で低複雑性を実現する。 さらに、エネルギーと均一性の組み合わせを使用する場合、K-NNの精度は99.9889%で、複雑さは低い。 一方、SVMは特定の機能の組み合わせで100%の精度を達成しているにもかかわらず、その高いか非常に高い複雑さは、特にリアルタイムアプリケーションにおいて、課題を引き起こす可能性がある。 したがって、精度と複雑性のトレードオフに基づき、相関、エネルギー、均一性を組み合わせたK-NNモデルは、高い精度と低複雑性を要求するリアルタイムアプリケーションに最適な選択肢として現れる。 本研究は、高精度かつ迅速な応答性の両方を必要とする様々なアプリケーションにおいて、オブジェクト検出を最適化するための貴重な洞察を提供する。

In the era of modern technology, object detection using the Gray Level Co-occurrence Matrix (GLCM) extraction method plays a crucial role in object recognition processes. It finds applications in real-time scenarios such as security surveillance and autonomous vehicle navigation, among others. Computational efficiency becomes a critical factor in achieving real-time object detection. Hence, there is a need for a detection model with low complexity and satisfactory accuracy. This research aims to enhance computational efficiency by selecting appropriate features within the GLCM framework. Two classification models, namely K-Nearest Neighbours (K-NN) and Support Vector Machine (SVM), were employed, with the results indicating that K-Nearest Neighbours (K-NN) outperforms SVM in terms of computational complexity. Specifically, K-NN, when utilizing a combination of Correlation, Energy, and Homogeneity features, achieves a 100% accuracy rate with low complexity. Moreover, when using a combination of Energy and Homogeneity features, K-NN attains an almost perfect accuracy level of 99.9889%, while maintaining low complexity. On the other hand, despite SVM achieving 100% accuracy in certain feature combinations, its high or very high complexity can pose challenges, particularly in real-time applications. Therefore, based on the trade-off between accuracy and complexity, the K-NN model with a combination of Correlation, Energy, and Homogeneity features emerges as a more suitable choice for real-time applications that demand high accuracy and low complexity. This research provides valuable insights for optimizing object detection in various applications requiring both high accuracy and rapid responsiveness.
翻訳日:2024-04-09 20:29:27 公開日:2024-04-06
# SDFR:顔認識コンペティションのための合成データ

SDFR: Synthetic Data for Face Recognition Competition ( http://arxiv.org/abs/2404.04580v1 )

ライセンス: Link先を確認
Hatef Otroshi Shahreza, Christophe Ecabert, Anjith George, Alexander Unnervik, Sébastien Marcel, Nicolò Di Domenico, Guido Borghi, Davide Maltoni, Fadi Boutros, Julia Vogel, Naser Damer, Ángela Sánchez-Pérez, EnriqueMas-Candela, Jorge Calvo-Zaragoza, Bernardo Biesseck, Pedro Vidal, Roger Granada, David Menotti, Ivan DeAndres-Tame, Simone Maurizio La Cava, Sara Concas, Pietro Melzi, Ruben Tolosana, Ruben Vera-Rodriguez, Gianpaolo Perelli, Giulia Orrù, Gian Luca Marcialis, Julian Fierrez, (参考訳) 大規模な顔認識データセットは、インターネットをクロールして個人の同意なしに収集し、法的、倫理的、プライバシー上の懸念を提起する。 近年のジェネレーティブ・モデルの発展に伴い、ウェブクローリングされた顔認識データセットの懸念を軽減するために、合成顔認識データセットの生成が提案されている。 本稿では,第18回IEEE International Conference on Automatic Face and Gesture Recognition (FG 2024)と共同で開催されるSDFR(Synthetic Data for Face Recognition)コンペティションの概要を述べる。 SDFRコンペティションは2つのタスクに分けられ、参加者は新しい合成データセットや既存のデータセットを使って顔認識システムを訓練することができる。 第1のタスクでは、顔認識バックボーンが固定され、データセットサイズが制限され、第2のタスクは、モデルバックボーン、データセット、トレーニングパイプラインにほぼ完全な自由を提供する。 提案されたモデルは、既存の新しい合成データセットに基づいてトレーニングされ、巧妙な方法で合成データによるトレーニングを改善した。 提案は評価され、7つのベンチマークデータセットの多様なセットにランク付けされた。 本報告では,提案した顔認識モデルの概要と,実データおよび合成データセットに基づいてトレーニングしたベースラインモデルと比較して,達成された性能を報告する。 さらに、提案書の評価は、異なるデモグラフィーグループ間でバイアスアセスメントに拡張される。 最後に, 合成データを用いた顔認識モデルの訓練の現状を概観し, 既存の課題と今後の方向性についても考察した。

Large-scale face recognition datasets are collected by crawling the Internet and without individuals' consent, raising legal, ethical, and privacy concerns. With the recent advances in generative models, recently several works proposed generating synthetic face recognition datasets to mitigate concerns in web-crawled face recognition datasets. This paper presents the summary of the Synthetic Data for Face Recognition (SDFR) Competition held in conjunction with the 18th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2024) and established to investigate the use of synthetic data for training face recognition models. The SDFR competition was split into two tasks, allowing participants to train face recognition systems using new synthetic datasets and/or existing ones. In the first task, the face recognition backbone was fixed and the dataset size was limited, while the second task provided almost complete freedom on the model backbone, the dataset, and the training pipeline. The submitted models were trained on existing and also new synthetic datasets and used clever methods to improve training with synthetic data. The submissions were evaluated and ranked on a diverse set of seven benchmarking datasets. The paper gives an overview of the submitted face recognition models and reports achieved performance compared to baseline models trained on real and synthetic datasets. Furthermore, the evaluation of submissions is extended to bias assessment across different demography groups. Lastly, an outlook on the current state of the research in training face recognition models using synthetic data is presented, and existing problems as well as potential future directions are also discussed.
翻訳日:2024-04-09 20:29:27 公開日:2024-04-06
# D$^3$:離散性から学習したディープフェイク検出のスケールアップ

D$^3$: Scaling Up Deepfake Detection by Learning from Discrepancy ( http://arxiv.org/abs/2404.04584v1 )

ライセンス: Link先を確認
Yongqi Yang, Zhihao Qian, Ye Zhu, Yu Wu, (参考訳) ジェネレーティブAIのブームは、リスクと懸念に絡み合った機会をもたらす。 本研究では,多種多様な画像生成モデルの責任ある展開に対応するため,より一般化と堅牢性を有する汎用的なディープフェイク検出システムを提案する。 まず,既存の検出タスクのセットアップを1ジェネレータから複数ジェネレータにスケールアップし,事前の方法論設計で提示された2つの課題を明らかにする。 具体的には、ある特定のジェネレータのトレーニングに適した現在の手法は、複数のジェネレータから包括的アーティファクトを学習するのに苦労しているか、あるいは見えないジェネレータ(例えば、イン・ドメインのパフォーマンス)から偽のイメージを識別し、未知のジェネレータ(つまり、アウト・オフ・ドメインのパフォーマンス)への一般化を交換する能力を犠牲にする傾向があることを明らかにした。 上記の課題に対処するため、D$^3$(Disdisrepancy Deepfake Detector)フレームワークを提案し、その中核となる考え方は、歪んだ画像を余分な離散信号として取り込む並列ネットワークブランチを導入して、複数のジェネレータから普遍的なアーティファクトを学習することである。 統合されたUFDデータセットとGenImageデータセットの6つの検出モデルによる大規模なスケールアップ実験により,本フレームワークの有効性が示され,ID性能を維持しつつ,現在のSOTA法と比較してOOD試験の精度が5.3%向上した。

The boom of Generative AI brings opportunities entangled with risks and concerns. In this work, we seek a step toward a universal deepfake detection system with better generalization and robustness, to accommodate the responsible deployment of diverse image generative models. We do so by first scaling up the existing detection task setup from the one-generator to multiple-generators in training, during which we disclose two challenges presented in prior methodological designs. Specifically, we reveal that the current methods tailored for training on one specific generator either struggle to learn comprehensive artifacts from multiple generators or tend to sacrifice their ability to identify fake images from seen generators (i.e., In-Domain performance) to exchange the generalization for unseen generators (i.e., Out-Of-Domain performance). To tackle the above challenges, we propose our Discrepancy Deepfake Detector (D$^3$) framework, whose core idea is to learn the universal artifacts from multiple generators by introducing a parallel network branch that takes a distorted image as extra discrepancy signal to supplement its original counterpart. Extensive scaled-up experiments on the merged UFD and GenImage datasets with six detection models demonstrate the effectiveness of our framework, achieving a 5.3% accuracy improvement in the OOD testing compared to the current SOTA methods while maintaining the ID performance.
翻訳日:2024-04-09 20:29:27 公開日:2024-04-06
# PIE:物理にインスパイアされた低照度化

PIE: Physics-inspired Low-light Enhancement ( http://arxiv.org/abs/2404.04586v1 )

ライセンス: Link先を確認
Dong Liang, Zhengyan Xu, Ling Li, Mingqiang Wei, Songcan Chen, (参考訳) 本稿では,PIEと呼ばれる低照度化のための物理に着想を得たコントラスト学習パラダイムを提案する。 PIEは主に3つの問題に対処する。 一 厳密な画素対応画像対でLLEモデルを訓練する既存の学習手法の問題を解決するため、画素対応画像対のトレーニングデータの必要性を排除し、代わりに未対応画像を用いて訓練する。 (II) 既往の手法における負のサンプルの無視とそれらの生成の不十分さに対処するため, LLEに物理に着想を得たコントラスト学習を取り入れ, ボグ・オブ・カーブ法(Bag of Curves, BoC)を設計し, 基礎となる物理画像原理に忠実なより合理的な負のサンプルを生成する。 3)既存手法における意味的接地真理への依存を克服するため,意味的接地真理への依存を排除しつつ,地域輝度の整合性を確保した非教師なし地域分断モジュールを提案する。 提案したPIEは, 未熟な正負のサンプルから効果的に学習し, 既存のLLEの取り組みと明らかに異なる非意味的な領域拡張を円滑に実現することができる。 PIEの新たなアーキテクチャに加えて、セマンティックセグメンテーションや顔検出といった下流タスクにおけるPIEの獲得についても検討する。 利用可能なオープンデータのトレーニングと広範な実験により、我々の手法が6つの独立したクロスシーンデータセット上で最先端のLLEモデルを上回ることを示した。 PIEは、テスト時間内で適切なGFLOPで高速に動作し、モバイルデバイスでの使用が容易になる。

In this paper, we propose a physics-inspired contrastive learning paradigm for low-light enhancement, called PIE. PIE primarily addresses three issues: (i) To resolve the problem of existing learning-based methods often training a LLE model with strict pixel-correspondence image pairs, we eliminate the need for pixel-correspondence paired training data and instead train with unpaired images. (ii) To address the disregard for negative samples and the inadequacy of their generation in existing methods, we incorporate physics-inspired contrastive learning for LLE and design the Bag of Curves (BoC) method to generate more reasonable negative samples that closely adhere to the underlying physical imaging principle. (iii) To overcome the reliance on semantic ground truths in existing methods, we propose an unsupervised regional segmentation module, ensuring regional brightness consistency while eliminating the dependency on semantic ground truths. Overall, the proposed PIE can effectively learn from unpaired positive/negative samples and smoothly realize non-semantic regional enhancement, which is clearly different from existing LLE efforts. Besides the novel architecture of PIE, we explore the gain of PIE on downstream tasks such as semantic segmentation and face detection. Training on readily available open data and extensive experiments demonstrate that our method surpasses the state-of-the-art LLE models over six independent cross-scenes datasets. PIE runs fast with reasonable GFLOPs in test time, making it easy to use on mobile devices.
翻訳日:2024-04-09 20:29:27 公開日:2024-04-06
# 神経進化型電子力学ネットワーク

Neuroevolving Electronic Dynamical Networks ( http://arxiv.org/abs/2404.04587v1 )

ライセンス: Link先を確認
Derek Whitley, (参考訳) ニューロ進化は、自然選択によって人工ニューラルネットワークの性能を改善するために進化的アルゴリズムを適用する強力な方法であるが、これらのネットワークの適合性評価は、特に微分方程式のシミュレーションを必要とする連続時間リカレントニューラルネットワーク(CTRNN)において、時間と計算コストがかかる可能性がある。 この課題を克服するために、フィールドプログラマブルゲートアレイ(FPGA)は、高性能で消費電力の少ないため、ますます人気が高まっている。 さらに、動的かつ部分的な再構成を行う能力により、CTRNNの適合性の極めて高速な評価が可能となり、従来の手法に係わるボトルネックに効果的に対処できる。 FPGAのプログラム可能なロジックに直接適合度評価を組み込むことで、超並列評価が実現可能となり、評価に要する時間を劇的に短縮する。 このFPGAの固有の並列性は、神経進化過程全体を数桁の規模で加速させ、最適解へのより高速な収束を促進する。 本研究は,神経進化型ニューラルネットワークのための強力なプラットフォームとして,能力のあるFPGA上での動的および部分的再構成を活用する可能性を示す。

Neuroevolution is a powerful method of applying an evolutionary algorithm to refine the performance of artificial neural networks through natural selection; however, the fitness evaluation of these networks can be time-consuming and computationally expensive, particularly for continuous time recurrent neural networks (CTRNNs) that necessitate the simulation of differential equations. To overcome this challenge, field programmable gate arrays (FPGAs) have emerged as an increasingly popular solution, due to their high performance and low power consumption. Further, their ability to undergo dynamic and partial reconfiguration enables the extremely rapid evaluation of the fitness of CTRNNs, effectively addressing the bottleneck associated with conventional methods. By incorporating fitness evaluation directly upon the programmable logic of the FPGA, hyper-parallel evaluation becomes feasible, dramatically reducing the time required for assessment. This inherent parallelism of FPGAs accelerates the entire neuroevolutionary process by several orders of magnitude, facilitating faster convergence to an optimal solution. The work presented in this study demonstrates the potential of utilizing dynamic and partial reconfiguration on capable FPGAs as a powerful platform for neuroevolving dynamic neural networks.
翻訳日:2024-04-09 20:29:27 公開日:2024-04-06
# バイパルタイト量子状態の単位不変特性の局所試験

Local Test for Unitarily Invariant Properties of Bipartite Quantum States ( http://arxiv.org/abs/2404.04599v1 )

ライセンス: Link先を確認
Kean Chen, Qisheng Wang, Zhicheng Zhang, (参考訳) 両部量子状態に対する局所テストのパワーについて検討する。 我々の中心的な結果は、二部体の純粋な状態の性質に対して、ある部分におけるユニタリな不変性は、(すべてのグローバルテスタよりも)最適な(グローバルテスタよりも)ローカルテスタがもう一方の部分にのみ作用することを意味するということです。 このことは、絡み合いスペクトル(例えばシュミット係数)の標準局所検定器であり、精製された試料は混合状態の物性試験において有利ではないことを示唆している。 応用として、Montanro と de Wolf (2016) の調査で提起された2つのオープンな質問は、以下の通りである: 1. 一致する下限の$\Omega(1/\varepsilon^2)$ マルチパーティライト純状態が積であるか$\varepsilon$-far で、Harrow と Montanaro (2010) のアルゴリズムが双パーティライト状態であっても最適であることを示す; 2. 最初の非自明な下限の $\Omega(r/\varepsilon)$ で、二部ライト純状態のシュミット階数が最大$r$か$\varepsilon$-far であるかどうかをテストする。 例えば、 - 一致する下界の$\Omega(d/\varepsilon^2)$$$d$次元のバイパルタイト純状態が最大エンタングルドか$\varepsilon$-farかをテストすると、O'Donnell and Wright (2015) のアルゴリズムがこのタスクに最適であることを示す。 A query lower bound $\widetilde \Omega(\sqrt{d/\Delta})$ for the $d$-dimensional entanglement entropy problem with gap $\Delta$, improve the prior best $\Omega(\sqrt[4]{d})$ by She and Yuen (2023) and $\widetilde \Omega(1/\sqrt{\Delta})$ by Wang and Zhang (2023) and Weggemans (2024)。 さらに,テスト状態が混合された場合,中心的な結果を拡張できる。一方通行のLOCCは最適なテスターを実現するのに十分である。

We study the power of local test for bipartite quantum states. Our central result is that, for properties of bipartite pure states, unitary invariance on one part implies an optimal (over all global testers) local tester acting only on the other part. This suggests a canonical local tester for entanglement spectra (i.e., Schmidt coefficients), and reveals that purified samples offer no advantage in property testing of mixed states. As applications, we settle two open questions raised in the survey of Montanaro and de Wolf (2016) by providing: 1. A matching lower bound $\Omega(1/\varepsilon^2)$ for testing whether a multipartite pure state is product or $\varepsilon$-far, showing that the algorithm of Harrow and Montanaro (2010) is optimal, even for bipartite states; 2. The first non-trivial lower bound $\Omega(r/\varepsilon)$ for testing whether the Schmidt rank of a bipartite pure state is at most $r$ or $\varepsilon$-far. We also show other new sample lower bounds, for example: - A matching lower bound $\Omega(d/\varepsilon^2)$ for testing whether a $d$-dimensional bipartite pure state is maximally entangled or $\varepsilon$-far, showing that the algorithm of O'Donnell and Wright (2015) is optimal for this task. Beyond sample complexity, we also contribute new quantum query lower bounds: - A query lower bound $\widetilde \Omega(\sqrt{d/\Delta})$ for the $d$-dimensional entanglement entropy problem with gap $\Delta$, improving the prior best $\Omega(\sqrt[4]{d})$ by She and Yuen (2023) and $\widetilde \Omega(1/\sqrt{\Delta})$ by Wang and Zhang (2023) and Weggemans (2024). Furthermore, our central result can be extended when the tested state is mixed: one-way LOCC is sufficient to realize the optimal tester.
翻訳日:2024-04-09 20:29:27 公開日:2024-04-06
# NAT-Enabled Wi-FiネットワークにおけるTCPハイジャック

Exploiting Sequence Number Leakage: TCP Hijacking in NAT-Enabled Wi-Fi Networks ( http://arxiv.org/abs/2404.04601v1 )

ライセンス: Link先を確認
Yuxiang Yang, Xuewei Feng, Qi Li, Kun Sun, Ziqiang Wang, Ke Xu, (参考訳) 本稿では、広く使われているNATポート保存戦略における新たなサイドチャネル脆弱性と、Wi-Fiルータのリバースパス検証戦略が不十分であることを明らかにする。 攻撃者は、被害者のクライアントとサーバ間のTCP接続の存在を検知した後、元のNATマッピングを排除し、ルータの脆弱性であるTCPウィンドウ追跡戦略を無効にするため、ルータに偽のTCPパケットを送信することで、ルータで新しいマッピングを再構築することができる。 このようにして、攻撃者はサーバからTCPパケットをインターセプトし、現在のシーケンスと承認番号を得ることができ、それによって攻撃者は接続を強制的に閉じたり、平文でトラフィックを毒殺したり、サーバから受信したパケットを攻撃者に再送信したりすることができる。 我々は、30のベンダーから広く利用されている67台のルータをテストし、52台がこの攻撃の影響を受けていることを発見した。 また、93の実世界のWi-Fiネットワークについて広範な測定を行った。 実験の結果、評価対象のWi-Fiネットワーク(81%)のうち75は、我々の攻撃に対して完全に脆弱であることがわかった。 ケーススタディでは、SSH接続を終了させ、FTPサーバからプライベートファイルをダウンロードし、87.4%、82.6%、76.1%の成功率で偽HTTPレスポンスパケットを注入するのに平均17.5秒、19.4秒、54.5秒かかります。 当社は、この脆弱性を責任を持って開示し、影響を受けるすべてのベンダーに対して緩和戦略を提案するとともに、承認、CVE、報酬、提案の採用など、肯定的なフィードバックを受けています。

In this paper, we uncover a new side-channel vulnerability in the widely used NAT port preservation strategy and an insufficient reverse path validation strategy of Wi-Fi routers, which allows an off-path attacker to infer if there is one victim client in the same network communicating with another host on the Internet using TCP. After detecting the presence of TCP connections between the victim client and the server, the attacker can evict the original NAT mapping and reconstruct a new mapping at the router by sending fake TCP packets due to the routers' vulnerability of disabling TCP window tracking strategy, which has been faithfully implemented in most of the routers for years. In this way, the attacker can intercept TCP packets from the server and obtain the current sequence and acknowledgment numbers, which in turn allows the attacker to forcibly close the connection, poison the traffic in plain text, or reroute the server's incoming packets to the attacker. We test 67 widely used routers from 30 vendors and discover that 52 of them are affected by this attack. Also, we conduct an extensive measurement study on 93 real-world Wi-Fi networks. The experimental results show that 75 of these evaluated Wi-Fi networks (81%) are fully vulnerable to our attack. Our case study shows that it takes about 17.5, 19.4, and 54.5 seconds on average to terminate an SSH connection, download private files from FTP servers, and inject fake HTTP response packets with success rates of 87.4%, 82.6%, and 76.1%. We responsibly disclose the vulnerability and suggest mitigation strategies to all affected vendors and have received positive feedback, including acknowledgments, CVEs, rewards, and adoption of our suggestions.
翻訳日:2024-04-09 20:29:27 公開日:2024-04-06
# インドにおける高度なコンピューティング授業におけるLLM利用の分析

Analyzing LLM Usage in an Advanced Computing Class in India ( http://arxiv.org/abs/2404.04603v1 )

ライセンス: Link先を確認
Chaitanya Arora, Utkarsh Venaik, Pavit Singh, Sahil Goyal, Jatin Tyagi, Shyama Goel, Ujjwal Singhal, Dhruv Kumar, (参考訳) 本稿では,大規模言語モデル(LLM)に携わる大学生と大学院生の利用パターンを,先進的なコンピューティングコースの文脈におけるプログラミング課題に取り組むために検討する。 既存の研究は主に、導入プログラミングの文脈におけるLLMの影響に焦点を当てている。 さらに、学生とLLMの実際の会話を分析する研究はほとんどない。 本研究は,インド大学の先進コンピューティングコース(分散システム)において,学生とLLMの生の相互作用を定量的,質的に分析するものである。 さらに,学生インタビューを実施して,利用パターンについてより深い洞察を得ることによって,これを補完する。 本研究は,大規模言語モデル(LLM)を,誤りの特定と修正によるコード生成やデバッグなど,様々な方法で利用していることを示す。 また、特定のソリューションのための LLM インターフェースに代入記述をコピー&ペーストし、複雑なプログラミングのアイデアや理論的概念に関する概念的な質問をし、コード機能と堅牢性をチェックするテストケースを生成する。 分析では,411名の学生から4000名以上のプロンプトを抽出し,10名の学生にインタビューを行った。 分析の結果,LLMはボイラプレートコードの生成やデバッグ支援に優れており,学生はコンポーネントの統合やシステムトラブルシューティングを処理していることがわかった。 これは、先進的なコンピューティングコースの学習目標と一致し、システムの作り方やトラブルシュートを学生に教えることを目的としており、スクラッチからコードを生成することに注力していない。 したがって、私たちが収集したデータに示すように、LLMツールは学生の生産性を高めるために活用することができる。 本研究は、高等教育におけるLLM活用に関する議論の進行に寄与し、高度な学習と生産性を補完する先進的なコンピューティングコースにおけるそれらの有用性を主張している。

This paper investigates the usage patterns of undergraduate and graduate students when engaging with large language models (LLMs) to tackle programming assignments in the context of advanced computing courses. Existing work predominantly focuses on the influence of LLMs in introductory programming contexts. Additionally, there is a scarcity of studies analyzing actual conversations between students and LLMs. Our study provides a comprehensive quantitative and qualitative analysis of raw interactions between students and LLMs within an advanced computing course (Distributed Systems) at an Indian University. We further complement this by conducting student interviews to gain deeper insights into their usage patterns. Our study shows that students make use of large language models (LLMs) in various ways: generating code or debugging code by identifying and fixing errors. They also copy and paste assignment descriptions into LLM interfaces for specific solutions, ask conceptual questions about complex programming ideas or theoretical concepts, and generate test cases to check code functionality and robustness. Our analysis includes over 4,000 prompts from 411 students and conducting interviews with 10 students. Our analysis shows that LLMs excel at generating boilerplate code and assisting in debugging, while students handle the integration of components and system troubleshooting. This aligns with the learning objectives of advanced computing courses, which are oriented towards teaching students how to build systems and troubleshoot, with less emphasis on generating code from scratch. Therefore, LLM tools can be leveraged to increase student productivity, as shown by the data we collected. This study contributes to the ongoing discussion on LLM use in education, advocating for their usefulness in advanced computing courses to complement higher-level learning and productivity.
翻訳日:2024-04-09 20:29:27 公開日:2024-04-06
# ブラッグ回折ハイパーエンタングル原子を用いた超高密度符号化

Superdense Coding using Bragg Diffracted Hyperentangled Atoms ( http://arxiv.org/abs/2404.04605v1 )

ライセンス: Link先を確認
Syed M. Arslan, Saif Al Kuwari, Tasawar Abbas, (参考訳) Superdense coding (SDC) は、量子力学を用いてデータを転送する可能性を示す一般的なプロトコルである。 本稿では,キャビティ量子力学(QED)を用いて生成したブラッグ回折ハイパーエンタングル原子を用いた量子超高密度符号化手法を提案する。 我々の計画では、アリスは1つの超絡み合った原子上に2ビットの古典的な情報を転送する。 これは共振器および非共振器ブラッグ回折を用いた共振器QEDセットアップによる多重量子ゲートの導入によって達成される。 このスキームは、複数の自由度を使って、符号化された情報に追加のセキュリティ層を追加する。

Superdense coding (SDC) is a popular protocol demonstrating the potential of using quantum mechanics to transfer data, where The sender (Alice) can transfer 2 bits of classical information over a single qubit. We present a scheme for quantum superdense coding through Bragg diffracted hyperentangled atoms generated using cavity quantum electrodynamics (QED). In our scheme, Alice transfers 2 bits of classical information over a single hyperentangled atom. This is achieved by introducing multiple quantum gates using resonant and off-resonant Bragg diffraction in cavity QED setup. This scheme uses multiple degrees of freedom to add an extra layer of security to the encoded information.
翻訳日:2024-04-09 20:29:27 公開日:2024-04-06
# Panoptic Perception:Universal Remote Sensing Image Interpretationのための新しいタスクときめ細かいデータセット

Panoptic Perception: A Novel Task and Fine-grained Dataset for Universal Remote Sensing Image Interpretation ( http://arxiv.org/abs/2404.04608v1 )

ライセンス: Link先を確認
Danpei Zhao, Bo Yuan, Ziqiang Chen, Tian Li, Zhuoran Liu, Wentao Li, Yue Gao, (参考訳) 現在のリモートセンシングの解釈モデルは、しばしば検出、セグメンテーション、キャプションのような単一のタスクにフォーカスする。 しかし、タスク固有の設計モデルは、画像の総合的なマルチレベル解釈を実現するには不可能である。 このフィールドはマルチタスク共同解釈データセットもサポートしていない。 本稿では,新しいタスクであるPanoptic Perceptionと,より包括的で普遍的なRSI解釈を実現するためのFineGrip(FineGrip)を提案する。 新しい仕事。 1) 画素レベル, インスタンスレベル, 画像レベル情報を統合し, 普遍的なイメージ知覚を実現する。 2)粗い画像から細かい粒度までの画像情報をキャプチャして、より深いシーン理解と記述を実現し、 3) 様々な独立したタスクがマルチタスク学習を通じて相互に補完し、強化することができる。 マルチタスクインタラクションと知覚結果の整合性を強調することにより, 細粒度インスタンスセグメンテーション, 背景セグメンテーション, グローバル細粒度イメージキャプションの同時処理を実現する。 具体的には、FineGripデータセットには、2,649のリモートセンシングイメージ、20の前景物カテゴリに属する12,054のきめ細かいインスタンスセグメンテーションマスク、5つのクラスのための7,599のバックグラウンドセマンティックマスク、13,245のキャプション文が含まれている。 さらに,共同最適化に基づく汎視知覚モデルを提案する。 FineGripの実験結果から, 単視知覚タスクの実現可能性, マルチタスク共同最適化が個々のタスクに与える影響が示された。 データセットは一般公開される予定だ。

Current remote-sensing interpretation models often focus on a single task such as detection, segmentation, or caption. However, the task-specific designed models are unattainable to achieve the comprehensive multi-level interpretation of images. The field also lacks support for multi-task joint interpretation datasets. In this paper, we propose Panoptic Perception, a novel task and a new fine-grained dataset (FineGrip) to achieve a more thorough and universal interpretation for RSIs. The new task, 1) integrates pixel-level, instance-level, and image-level information for universal image perception, 2) captures image information from coarse to fine granularity, achieving deeper scene understanding and description, and 3) enables various independent tasks to complement and enhance each other through multi-task learning. By emphasizing multi-task interactions and the consistency of perception results, this task enables the simultaneous processing of fine-grained foreground instance segmentation, background semantic segmentation, and global fine-grained image captioning. Concretely, the FineGrip dataset includes 2,649 remote sensing images, 12,054 fine-grained instance segmentation masks belonging to 20 foreground things categories, 7,599 background semantic masks for 5 stuff classes and 13,245 captioning sentences. Furthermore, we propose a joint optimization-based panoptic perception model. Experimental results on FineGrip demonstrate the feasibility of the panoptic perception task and the beneficial effect of multi-task joint optimization on individual tasks. The dataset will be publicly available.
翻訳日:2024-04-09 20:29:27 公開日:2024-04-06
# オーバースキャッシングとオーバースムーシングに対するスペクトルグラフプルーニング

Spectral Graph Pruning Against Over-Squashing and Over-Smoothing ( http://arxiv.org/abs/2404.04612v1 )

ライセンス: Link先を確認
Adarsh Jamadandi, Celia Rubio-Madrigal, Rebekka Burkholz, (参考訳) メッセージパッシンググラフニューラルネットワークは、2つの問題に悩まされていることが知られている。 前者は、遠方のノードからの情報フローを妨げ、主にエッジ付加によってスペクトルギャップの最大化によって緩和されるトポロジ的ボトルネックの結果である。 しかしながら、このような追加は、異なるクラスのノードを区別しにくくするオーバースムーシングを促進することが多い。 ブレス現象にインスパイアされた我々は、エッジの削除はオーバー・スクアッシングとオーバー・スムーシングを同時に扱うことができると論じる。 この洞察は、エッジ削除が一般化をどのように改善するかを説明し、スペクトルギャップの最適化を、宝くじのグラフを刈り取ることによって計算資源を減らすという、一見非連結な目的に結びつける。 そこで本稿では,エッジの追加や削除を効果的に行うためのスペクトルギャップ最適化フレームワークを提案する。

Message Passing Graph Neural Networks are known to suffer from two problems that are sometimes believed to be diametrically opposed: over-squashing and over-smoothing. The former results from topological bottlenecks that hamper the information flow from distant nodes and are mitigated by spectral gap maximization, primarily, by means of edge additions. However, such additions often promote over-smoothing that renders nodes of different classes less distinguishable. Inspired by the Braess phenomenon, we argue that deleting edges can address over-squashing and over-smoothing simultaneously. This insight explains how edge deletions can improve generalization, thus connecting spectral gap optimization to a seemingly disconnected objective of reducing computational resources by pruning graphs for lottery tickets. To this end, we propose a more effective spectral gap optimization framework to add or delete edges and demonstrate its effectiveness on large heterophilic datasets.
翻訳日:2024-04-09 20:29:27 公開日:2024-04-06
# ポイントSAGE:メッシュに依存しない超解像法による流体流動予測

PointSAGE: Mesh-independent superresolution approach to fluid flow predictions ( http://arxiv.org/abs/2404.04615v1 )

ライセンス: Link先を確認
Rajat Sarkar, Krishna Sai Sudhir Aripirala, Vishal Sudam Jadhav, Sagar Srinivas Sakhinana, Venkataramana Runkana, (参考訳) 計算流体力学(CFD)は、様々な産業にまたがる流動をシミュレーションするための強力なツールである。 高分解能CFDシミュレーションは、流体の挙動や流れのパターンに関する貴重な洞察を与え、設計特性の最適化やシステム性能の向上を支援する。 しかし、解像度が大きくなるにつれて、計算データ要求と時間の増加は比例する。 これはCFDにおける永続的な課題である。 近年, 粗いメッシュシミュレーションを用いて, 形状や境界条件を入力として, 微細メッシュシミュレーションを正確に予測する取り組みが進められている。 この課題に対処するために、UNetsのような超高解像度のディープラーニング技術のために設計されたモデルからインスピレーションを得た。 しかしながら、これらの既存のメソッドは構造化データに限定されており、メッシュが非構造化されている場合、畳み込みができないため失敗する。 さらに、トレーニングプロセスにジオメトリ/メシュ情報を組み込むことで、データ要求の増加、同じ物理現象の未確認測度を一般化する際の課題、メッシュ歪みに対するロバスト性の問題といった欠点がもたらされる。 これらの問題に対処するために、Pointcloudの非秩序でメッシュのない性質を活用して複雑な流体の流れを学習し、メッシュ情報を完全に無視してシミュレーションを直接予測する、メッシュに依存しない新しいフレームワークであるPointSAGEを提案する。 適応可能なフレームワークを利用することで、トレーニングデータセットの寸法に関係なく、さまざまなポイントクラウドサイズにわたる詳細なデータを正確に予測する。 我々は,様々なシナリオにおける多様なデータセットに対するPointSAGEの有効性を評価し,従来のCFD手法と比較して,計算時間の顕著な向上と計算時間の大幅な向上を図った。

Computational Fluid Dynamics (CFD) serves as a powerful tool for simulating fluid flow across diverse industries. High-resolution CFD simulations offer valuable insights into fluid behavior and flow patterns, aiding in optimizing design features or enhancing system performance. However, as resolution increases, computational data requirements and time increase proportionately. This presents a persistent challenge in CFD. Recently, efforts have been directed towards accurately predicting fine-mesh simulations using coarse-mesh simulations, with geometry and boundary conditions as input. Drawing inspiration from models designed for super-resolution, deep learning techniques like UNets have been applied to address this challenge. However, these existing methods are limited to structured data and fail if the mesh is unstructured due to its inability to convolute. Additionally, incorporating geometry/mesh information in the training process introduces drawbacks such as increased data requirements, challenges in generalizing to unseen geometries for the same physical phenomena, and issues with robustness to mesh distortions. To address these concerns, we propose a novel framework, PointSAGE a mesh-independent network that leverages the unordered, mesh-less nature of Pointcloud to learn the complex fluid flow and directly predict fine simulations, completely neglecting mesh information. Utilizing an adaptable framework, the model accurately predicts the fine data across diverse point cloud sizes, regardless of the training dataset's dimension. We have evaluated the effectiveness of PointSAGE on diverse datasets in different scenarios, demonstrating notable results and a significant acceleration in computational time in generating fine simulations compared to standard CFD techniques.
翻訳日:2024-04-09 20:29:27 公開日:2024-04-06
# 完全分散型ニューラルネットワークシステムにおける変分問題

Vanishing Variance Problem in Fully Decentralized Neural-Network Systems ( http://arxiv.org/abs/2404.04616v1 )

ライセンス: Link先を確認
Yongding Tian, Zaid Al-Ars, Maksim Kitsak, Peter Hofstee, (参考訳) フェデレーションラーニングとゴシップラーニングは、クライアントデバイス上でトレーニングデータを保持し、ローカルにトレーニングされた機械学習(ML)モデルを他と共有することによって、データのプライバシに関する懸念を軽減するように設計されている。 フェデレートされた学習は集中型パラメータサーバを使用し、ゴシップ学習は完全な分散化メカニズムを採用し、ノード間の直接モデル交換を可能にする。 この分散された性質は、ゴシップ学習を連邦学習よりも効率の低いものと位置づけることが多い。 どちらも重要なステップで、受信したMLモデルの表現を計算し、この表現を既存のモデルに統合する。 従来、この表現は、FedAVGアルゴリズムで例示される、受信したモデルの平均化によって導かれる。 この平均化アプローチは,モデル収束の潜在的な遅延を本質的に引き起こすことが示唆された。 ここでは,Xavier重み初期化によって確立された最適分散を,非相関MLモデルの平均化が損なう「消滅的分散」問題として,その根本原因を特定し,これを「消滅的分散」問題と呼ぶ。 中央サーバがモデル相関を保証するフェデレーション学習と異なり、モデル分割とサンプリングによってこの問題を回避する従来のゴシップ学習とは異なり、本研究では分散補正モデル平均化アルゴリズムを導入している。 このアルゴリズムは,ネットワークトポロジや非IIDデータ分布に関係なく,モデル平均化に必要な最適分散を保存する。 シミュレーション結果から,Gossip学習がフェデレート学習に匹敵する収束効率を達成できることが示唆された。

Federated learning and gossip learning are emerging methodologies designed to mitigate data privacy concerns by retaining training data on client devices and exclusively sharing locally-trained machine learning (ML) models with others. The primary distinction between the two lies in their approach to model aggregation: federated learning employs a centralized parameter server, whereas gossip learning adopts a fully decentralized mechanism, enabling direct model exchanges among nodes. This decentralized nature often positions gossip learning as less efficient compared to federated learning. Both methodologies involve a critical step: computing a representation of received ML models and integrating this representation into the existing model. Conventionally, this representation is derived by averaging the received models, exemplified by the FedAVG algorithm. Our findings suggest that this averaging approach inherently introduces a potential delay in model convergence. We identify the underlying cause and refer to it as the "vanishing variance" problem, where averaging across uncorrelated ML models undermines the optimal variance established by the Xavier weight initialization. Unlike federated learning where the central server ensures model correlation, and unlike traditional gossip learning which circumvents this problem through model partitioning and sampling, our research introduces a variance-corrected model averaging algorithm. This novel algorithm preserves the optimal variance needed during model averaging, irrespective of network topology or non-IID data distributions. Our extensive simulation results demonstrate that our approach enables gossip learning to achieve convergence efficiency comparable to that of federated learning.
翻訳日:2024-04-09 20:19:42 公開日:2024-04-06
# 画像回復の強化_マルチアテンションアプローチ

Empowering Image Recovery_ A Multi-Attention Approach ( http://arxiv.org/abs/2404.04617v1 )

ライセンス: Link先を確認
Juan Wen, Yawei Li, Chao Zhang, Weiyan Hou, Radu Timofte, Luc Van Gool, (参考訳) DART(Diverse Restormer)は,様々なソース(長周期,局所領域,大域領域,特徴次元,位置次元)からの情報を効果的に統合し,復元課題に対処する新しい画像復元手法である。 Transformerモデルは、自己保持機構による画像復元において優れた性能を示してきたが、複雑なシナリオでは制限に直面している。 近年のトランスフォーマーの進歩と各種アテンション機構を活用することで,アテンション機構をカスタマイズし,全体的な性能を向上させる。 我々の新しいネットワークアーキテクチャであるDARTは、人間の目の選択的な焦点決め機構を模倣するために、窓張りの注意を払っています。 受容場を動的に調整することにより、画像の解像度復元に不可欠な基本的特徴を最適に捉える。 長周期画像復元のためのLongIRアテンション機構により効率と性能のバランスを実現する。 特徴次元と位置次元をまたいだ注意機構の統合により、詳細の回復がさらに促進される。 5つの修復作業における評価は、常にDARTを最前線に配置する。 受け入れると、再現性を確保し、さらなる研究を促進するために、パブリックアクセス可能なコードとモデルを提供することを約束します。

We propose Diverse Restormer (DART), a novel image restoration method that effectively integrates information from various sources (long sequences, local and global regions, feature dimensions, and positional dimensions) to address restoration challenges. While Transformer models have demonstrated excellent performance in image restoration due to their self-attention mechanism, they face limitations in complex scenarios. Leveraging recent advancements in Transformers and various attention mechanisms, our method utilizes customized attention mechanisms to enhance overall performance. DART, our novel network architecture, employs windowed attention to mimic the selective focusing mechanism of human eyes. By dynamically adjusting receptive fields, it optimally captures the fundamental features crucial for image resolution reconstruction. Efficiency and performance balance are achieved through the LongIR attention mechanism for long sequence image restoration. Integration of attention mechanisms across feature and positional dimensions further enhances the recovery of fine details. Evaluation across five restoration tasks consistently positions DART at the forefront. Upon acceptance, we commit to providing publicly accessible code and models to ensure reproducibility and facilitate further research.
翻訳日:2024-04-09 20:19:42 公開日:2024-04-06
# 複雑なエージェントシステムは本当に必要か?

Do We Really Need a Complex Agent System? Distill Embodied Agent into a Single Model ( http://arxiv.org/abs/2404.04619v1 )

ライセンス: Link先を確認
Zhonghan Zhao, Ke Ma, Wenhao Chai, Xuan Wang, Kewei Chen, Dongxu Guo, Yanting Zhang, Hongwei Wang, Gaoang Wang, (参考訳) 大きな言語モデル(LLM)の力により、オープンなエンボディエージェントは人間の指示を柔軟に理解し、解釈可能なガイダンス戦略を生成し、実行可能なアクションを出力することができる。 現在、マルチモーダル言語モデル~(MLM)は、マルチモーダル信号をLLMに統合し、エンティティエージェントにより豊かな認識をもたらし、具体化されたエージェントが、より繊細に世界の理解されたタスクを知覚できるようにする。 ただし、現存する作品は以下の通りである。 1) エージェントによって独立に動作し,それぞれが複数のLDMを包含し,知覚から行動に至るまで,複雑なタスクと実行の間にギャップを生じさせる。 2) 静的データ上でMLMをトレーニングし、オープンなシナリオで動的に苦労する。 3) 事前知識を直接プロンプトとして入力し、アプリケーションの柔軟性を抑える。 オープンなエンボディタスクのための階層的知識蒸留フレームワークであるSTEVE-2を提案する。 1)多粒性タスク分割のための階層システム 2 並列シミュレーションデータのためのミラー蒸留方法、及び 3) 並列シミュレーションにさらなる知識をもたらすための追加のエキスパートモデル。 蒸留後は、多用途MLMの性能と知識を利用して、追加のエキスパートガイダンスなしで複雑なオープンエンドタスクを完了することができる。 ナビゲーションと作成タスクに関する広範囲な評価は、オープンエンドタスクにおけるSTEVE-2の優れたパフォーマンスを強調し、パフォーマンスは1.4 \times$ - 7.3 \times$である。

With the power of large language models (LLMs), open-ended embodied agents can flexibly understand human instructions, generate interpretable guidance strategies, and output executable actions. Nowadays, Multi-modal Language Models~(MLMs) integrate multi-modal signals into LLMs, further bringing richer perception to entity agents and allowing embodied agents to perceive world-understanding tasks more delicately. However, existing works: 1) operate independently by agents, each containing multiple LLMs, from perception to action, resulting in gaps between complex tasks and execution; 2) train MLMs on static data, struggling with dynamics in open-ended scenarios; 3) input prior knowledge directly as prompts, suppressing application flexibility. We propose STEVE-2, a hierarchical knowledge distillation framework for open-ended embodied tasks, characterized by 1) a hierarchical system for multi-granular task division, 2) a mirrored distillation method for parallel simulation data, and 3) an extra expert model for bringing additional knowledge into parallel simulation. After distillation, embodied agents can complete complex, open-ended tasks without additional expert guidance, utilizing the performance and knowledge of a versatile MLM. Extensive evaluations on navigation and creation tasks highlight the superior performance of STEVE-2 in open-ended tasks, with $1.4 \times$ - $7.3 \times$ in performance.
翻訳日:2024-04-09 20:19:42 公開日:2024-04-06
# 励起状態計算のためのフィードバックに基づく量子アルゴリズム

Feedback-Based Quantum Algorithm for Excited States Calculation ( http://arxiv.org/abs/2404.04620v1 )

ライセンス: Link先を確認
Salahuddin Abdul Rahman, Özkan Karabacak, Rafal Wisniewski, (参考訳) 近年、量子リアプノフ制御理論にインスパイアされたハミルトニアンの基底状態を計算するために、フィードバックに基づく量子アルゴリズムが導入された。 本稿では、これらのアルゴリズムを、低エネルギー固有状態が知られていると仮定して、与えられたハミルトニアンの固有状態を計算する問題に一般化することを目的とする。 そこで本研究では、フィードバックに基づく量子アルゴリズムにおける量子回路の階層的構成と、新しいリアプノフ関数に基づく新しいフィードバック法則を組み合わせ、量子回路パラメータを割り当てる新しい設計手法を提案する。 本稿では、フィードバック法則における項の期待と重複推定に基づく回路パラメータの評価と、リアプノフ関数の勾配に基づく2つの手法を提案する。 我々は、このアルゴリズムを実証的な例を通して、および量子化学の応用を通して実証する。 その性能を評価するため、IBMの超伝導量子コンピュータ上で数値シミュレーションと実行を行う。

Recently, feedback-based quantum algorithms have been introduced to calculate the ground states of Hamiltonians, inspired by quantum Lyapunov control theory. This paper aims to generalize these algorithms to the problem of calculating an eigenstate of a given Hamiltonian, assuming that the lower energy eigenstates are known. To this aim, we propose a new design methodology that combines the layer-wise construction of the quantum circuit in feedback-based quantum algorithms with a new feedback law based on a new Lyapunov function to assign the quantum circuit parameters. We present two approaches for evaluating the circuit parameters: one based on the expectation and overlap estimation of the terms in the feedback law and another based on the gradient of the Lyapunov function. We demonstrate the algorithm through an illustrative example and through an application in quantum chemistry. To assess its performance, we conduct numerical simulations and execution on IBM's superconducting quantum computer.
翻訳日:2024-04-09 20:19:42 公開日:2024-04-06
# インクジェット印刷部品分析のための自動機械学習アプローチ:スマートアダプティブ・マニュファクチャリングへの一歩

An Automated Machine Learning Approach to Inkjet Printed Component Analysis: A Step Toward Smart Additive Manufacturing ( http://arxiv.org/abs/2404.04623v1 )

ライセンス: Link先を確認
Abhishek Sahu, Peter H. Aaen, Praveen Damacharla, (参考訳) 本稿では、フレキシブル基板上のインクジェット印刷部品のマイクロ波特性評価のための機械学習に基づくアーキテクチャを提案する。 提案アーキテクチャでは,複数の機械学習アルゴリズムを用いて,材料パラメータ(導電率,誘電特性)を自動的に抽出する。 当初、インクジェット印刷コプラナー導波路(CPW)の材料パラメータとEMシミュレーション伝搬定数の相互依存を利用して機械学習モデルを訓練した。 次に、これらの機械学習モデルと測定された伝搬定数を用いて、試験プロトタイプのインク伝導率と誘電特性を抽出する。 提案手法の適用性を示すため、4つのヒューリスティックベース機械学習モデルを比較し比較する。 その結果,eXtreme Gradient Boosted Trees Regressor (XGB) と Light Gradient Boosting (LGB) アルゴリズムは,研究中の特徴付け問題に対して最適であることがわかった。

In this paper, we present a machine learning based architecture for microwave characterization of inkjet printed components on flexible substrates. Our proposed architecture uses several machine learning algorithms and automatically selects the best algorithm to extract the material parameters (ink conductivity and dielectric properties) from on-wafer measurements. Initially, the mutual dependence between material parameters of the inkjet printed coplanar waveguides (CPWs) and EM-simulated propagation constants is utilized to train the machine learning models. Next, these machine learning models along with measured propagation constants are used to extract the ink conductivity and dielectric properties of the test prototypes. To demonstrate the applicability of our proposed approach, we compare and contrast four heuristic based machine learning models. It is shown that eXtreme Gradient Boosted Trees Regressor (XGB) and Light Gradient Boosting (LGB) algorithms perform best for the characterization problem under study.
翻訳日:2024-04-09 20:19:42 公開日:2024-04-06
# エンドツーエンドと2ステップテキストスポッティングのギャップを埋める

Bridging the Gap Between End-to-End and Two-Step Text Spotting ( http://arxiv.org/abs/2404.04624v1 )

ライセンス: Link先を確認
Mingxin Huang, Hongliang Li, Yuliang Liu, Xiang Bai, Lianwen Jin, (参考訳) モジュール性は複雑なシステムの開発とメンテナンスにおいて重要な役割を担います。 エンド・ツー・エンドのテキストスポッティングは、従来の2段階の手法で見られるエラーの蓄積や準最適性能の問題を効果的に軽減するが、多くの競合や実用上、モジュール性が優れているため、この2段階の手法は引き続き好まれる。 本稿では,モジュール性を維持しつつ,2段階の手法でエラーの蓄積と最適化性能の問題を解決する新しい手法であるブリジングテキストスポッティングを提案する。 これを実現するために、独立して開発・訓練されたよく訓練された検出器と認識器を採用し、そのパラメータをロックして、既に取得した能力を維持する。 その後、ゼロ初期化ニューラルネットワークを介してロックされた検出器と認識器を接続するブリッジを導入する。 このゼロ初期化ニューラルネットワークは、ゼロに設定された重みで初期化され、ロックされた認識器への検出において、大きな受容野の特徴をシームレスに統合する。 さらに、固定検出器と認識器は自然にエンドツーエンドの最適化機能を取得できないため、これらの特徴の効率的な学習を容易にするためにAdapterを採用する。 最新の検出器と認識器をブリジングテキストスポッティングで接続し、トータルテキストで83.3%、CTW1500で69.8%、ICDAR 2015で89.5%の精度を達成した。 コードはhttps://github.com/mxin262/Bridging-Text-Spotting.comで公開されている。

Modularity plays a crucial role in the development and maintenance of complex systems. While end-to-end text spotting efficiently mitigates the issues of error accumulation and sub-optimal performance seen in traditional two-step methodologies, the two-step methods continue to be favored in many competitions and practical settings due to their superior modularity. In this paper, we introduce Bridging Text Spotting, a novel approach that resolves the error accumulation and suboptimal performance issues in two-step methods while retaining modularity. To achieve this, we adopt a well-trained detector and recognizer that are developed and trained independently and then lock their parameters to preserve their already acquired capabilities. Subsequently, we introduce a Bridge that connects the locked detector and recognizer through a zero-initialized neural network. This zero-initialized neural network, initialized with weights set to zeros, ensures seamless integration of the large receptive field features in detection into the locked recognizer. Furthermore, since the fixed detector and recognizer cannot naturally acquire end-to-end optimization features, we adopt the Adapter to facilitate their efficient learning of these features. We demonstrate the effectiveness of the proposed method through extensive experiments: Connecting the latest detector and recognizer through Bridging Text Spotting, we achieved an accuracy of 83.3% on Total-Text, 69.8% on CTW1500, and 89.5% on ICDAR 2015. The code is available at https://github.com/mxin262/Bridging-Text-Spotting.
翻訳日:2024-04-09 20:19:42 公開日:2024-04-06
# DPOの限界の分析と理解に向けて--理論的展望

Towards Analyzing and Understanding the Limitations of DPO: A Theoretical Perspective ( http://arxiv.org/abs/2404.04626v1 )

ライセンス: Link先を確認
Duanyu Feng, Bowen Qin, Chen Huang, Zheng Zhang, Wenqiang Lei, (参考訳) 対の選好データから直接報酬信号を導出する直接選好最適化(DPO)は,Large Language Models(LLM)と人間の選好の整合性を示す。 様々なタスクで広く使われているにもかかわらず、DPOはSFTの有効性に対する感受性と、人間に好まれる反応に対する学習能力への障害を批判され、満足のいく性能は低下した。 これらの制限を克服するためには、DPOの理論的理解は不可欠であるが、依然として欠如している。 そこで我々は,DPOの限界を理論的に分析し,理解する。 具体的には、フィールド理論を用いてDPOの最適化過程を分析する。 DPO損失関数の勾配ベクトル場を解析することにより、DPO損失関数は、好むデータを生成する確率を増大させるよりも速い速度で、人間の非推奨データを生成する確率を減少させる。 このことは、関連する研究実験で発見されたDPOの限界を理解するための理論的洞察を与える。

Direct Preference Optimization (DPO), which derives reward signals directly from pairwise preference data, has shown its effectiveness on aligning Large Language Models (LLMs) with human preferences. Despite its widespread use across various tasks, DPO has been criticized for its sensitivity to the SFT's effectiveness and its hindrance to the learning capacity towards human-preferred responses, leading to less satisfactory performance. To overcome those limitations, the theoretical understanding of DPO are indispensable but still lacking. To this end, we take a step towards theoretically analyzing and understanding the limitations of DPO. Specifically, we provide an analytical framework using the field theory to analyze the optimization process of DPO. By analyzing the gradient vector field of the DPO loss function, we find that the DPO loss function decreases the probability of producing human dispreferred data at a faster rate than it increases the probability of producing preferred data. This provides theoretical insights for understanding the limitations of DPO discovered in the related research experiments, thereby setting the foundation for its improvement.
翻訳日:2024-04-09 20:19:42 公開日:2024-04-06
# 視覚強化による視覚プログラム合成改善のための自己学習型大規模言語モデル

Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement ( http://arxiv.org/abs/2404.04627v1 )

ライセンス: Link先を確認
Zaid Khan, Vijay Kumar BG, Samuel Schulter, Yun Fu, Manmohan Chandraker, (参考訳) ビジュアルプログラム合成は、構成型コンピュータビジョンタスクのための大規模言語モデルの推論能力を利用するための有望なアプローチである。 それまでの作業では、視覚プログラムを合成するために、凍結LDMを使用した数発のプロンプトを使用していた。 より良いビジュアルプログラムを書くためにLLMを訓練することは魅力的な可能性であるが、どうやってこれを達成すればよいのかは定かではない。 トレーニング用ビジュアルプログラムのデータセットは存在せず、エキスパートアノテータが必要なため、ビジュアルプログラムデータセットの取得は簡単にはクラウドソーシングできない。 直接監督の欠如を回避するため,対話型体験からのフィードバックを用いて,LLMのプログラム合成能力の向上を検討する。 本稿では,視覚言語タスクに対する既存のアノテーションを利用して,そのタスクに対する粗い報酬信号を即興で実現し,LLMをポリシーとして扱い,そのタスクに対するLLMの視覚的プログラム合成能力を向上させるために強化自己学習を適用する手法を提案する。 本稿では,オブジェクト検出,構成的視覚的質問応答,画像テキスト検索に関する一連の実験について述べる。 ウェブサイト:https://zaidkhan.me/ViReP

Visual program synthesis is a promising approach to exploit the reasoning abilities of large language models for compositional computer vision tasks. Previous work has used few-shot prompting with frozen LLMs to synthesize visual programs. Training an LLM to write better visual programs is an attractive prospect, but it is unclear how to accomplish this. No dataset of visual programs for training exists, and acquisition of a visual program dataset cannot be easily crowdsourced due to the need for expert annotators. To get around the lack of direct supervision, we explore improving the program synthesis abilities of an LLM using feedback from interactive experience. We propose a method where we exploit existing annotations for a vision-language task to improvise a coarse reward signal for that task, treat the LLM as a policy, and apply reinforced self-training to improve the visual program synthesis ability of the LLM for that task. We describe a series of experiments on object detection, compositional visual question answering, and image-text retrieval, and show that in each case, the self-trained LLM outperforms or performs on par with few-shot frozen LLMs that are an order of magnitude larger. Website: https://zaidkhan.me/ViReP
翻訳日:2024-04-09 20:19:42 公開日:2024-04-06
# DifFUSER:3次元物体検出とBEVセグメンテーションにおけるロバスト多センサ融合の拡散モデル

DifFUSER: Diffusion Model for Robust Multi-Sensor Fusion in 3D Object Detection and BEV Segmentation ( http://arxiv.org/abs/2404.04629v1 )

ライセンス: Link先を確認
Duy-Tho Le, Hengcan Shi, Jianfei Cai, Hamid Rezatofighi, (参考訳) 拡散モデルは最近、強力な深層生成モデルとして注目され、様々な領域で不整合性能を示している。 しかし、マルチセンサー融合のポテンシャルはほとんど未解明のままである。 本研究では,DifFUSERを提案する。DifFUSERは3次元オブジェクト検出とBEVマップセグメンテーションにおける多モード融合のための拡散モデルを利用する新しい手法である。 DifFUSERは拡散の固有のノイズ発生特性から恩恵を受け、センサの故障時にセンサー特性を洗練または合成することができ、融合出力の品質を向上させることができる。 アーキテクチャの面では、我々のDifFUSERブロックは、cMini-BiFPNと呼ばれる階層的なBiFPN方式でチェーンされ、潜在拡散の代替アーキテクチャを提供する。 さらに, Gated Self-conditioned Modulated (GSM) 潜伏拡散モジュールを, 拡散過程に強い条件付けを加え, センサ故障に堅牢性を加えるために, プログレッシブ・センサ・ドロップアウト・トレーニング (PSDT) パラダイムとともに導入する。 我々のNuscenesデータセットに関する広範な評価によると、DifFUSERはBEVマップセグメンテーションタスクにおいて69.1% mIOUで最先端のパフォーマンスを達成するだけでなく、3Dオブジェクト検出においてトランスフォーマーベースの融合技術と競合する。

Diffusion models have recently gained prominence as powerful deep generative models, demonstrating unmatched performance across various domains. However, their potential in multi-sensor fusion remains largely unexplored. In this work, we introduce DifFUSER, a novel approach that leverages diffusion models for multi-modal fusion in 3D object detection and BEV map segmentation. Benefiting from the inherent denoising property of diffusion, DifFUSER is able to refine or even synthesize sensor features in case of sensor malfunction, thereby improving the quality of the fused output. In terms of architecture, our DifFUSER blocks are chained together in a hierarchical BiFPN fashion, termed cMini-BiFPN, offering an alternative architecture for latent diffusion. We further introduce a Gated Self-conditioned Modulated (GSM) latent diffusion module together with a Progressive Sensor Dropout Training (PSDT) paradigm, designed to add stronger conditioning to the diffusion process and robustness to sensor failures. Our extensive evaluations on the Nuscenes dataset reveal that DifFUSER not only achieves state-of-the-art performance with a 69.1% mIOU in BEV map segmentation tasks but also competes effectively with leading transformer-based fusion techniques in 3D object detection.
翻訳日:2024-04-09 20:19:42 公開日:2024-04-06
# 大言語モデル(LLM)の限界について : 偽属性

On the Limitations of Large Language Models (LLMs): False Attribution ( http://arxiv.org/abs/2404.04631v1 )

ライセンス: Link先を確認
Tosin Adewumi, Nudrat Habib, Lama Alkhaled, Elisa Barney, (参考訳) 本研究では,大きな言語モデル (LLM) の1つの重要な制限,すなわち偽帰属について考察し,新しい幻覚指標であるSimple Hallucination Index (SHI) を導入する。 比較的少量のテキストに対する自動著者帰属のタスクは、重要なNLPタスクであるが、困難である。 ゼロショット設定(LLaMA-2-13B、Mixtral 8x7B、Gemma-7B)における3つのオープン SotA LLM のパワーを実証的に評価する。 Project Gutenbergによると、私たちは最も人気のある書籍のトップ10を収集し、それぞれを400語に等しく分割し、著者を予測するためにそれぞれのLSMに頼みました。 162チャンクをランダムにサンプリングし,各注釈書のエラーマージンを7%,信頼度を95%とした(チャールズ・ディケンズによる大期待,922チャンク)。 その結果,Mixtral 8x7Bは予測精度が最も高く,最も低いShi,Pearson相関(r)は0.737,0.249,-0.9996であり,LLaMA-2-13B,Gemma-7Bが続くことがわかった。 しかし、Mixtral 8x7Bは3冊の幻覚に悩まされており、Shiは0.87(最悪の範囲は0-1)まで上昇している。 r が与える精度と Shi の強い負の相関は、他のタスクに一般化可能な新しい幻覚計量の忠実さを示す。 我々は、他のモデルの再現性と評価を支援するために、注釈付きデータの塊とコードを公開した。

In this work, we provide insight into one important limitation of large language models (LLMs), i.e. false attribution, and introduce a new hallucination metric - Simple Hallucination Index (SHI). The task of automatic author attribution for relatively small chunks of text is an important NLP task but can be challenging. We empirically evaluate the power of 3 open SotA LLMs in zero-shot setting (LLaMA-2-13B, Mixtral 8x7B, and Gemma-7B), especially as human annotation can be costly. We collected the top 10 most popular books, according to Project Gutenberg, divided each one into equal chunks of 400 words, and asked each LLM to predict the author. We then randomly sampled 162 chunks for human evaluation from each of the annotated books, based on the error margin of 7% and a confidence level of 95% for the book with the most chunks (Great Expectations by Charles Dickens, having 922 chunks). The average results show that Mixtral 8x7B has the highest prediction accuracy, the lowest SHI, and a Pearson's correlation (r) of 0.737, 0.249, and -0.9996, respectively, followed by LLaMA-2-13B and Gemma-7B. However, Mixtral 8x7B suffers from high hallucinations for 3 books, rising as high as an SHI of 0.87 (in the range 0-1, where 1 is the worst). The strong negative correlation of accuracy and SHI, given by r, demonstrates the fidelity of the new hallucination metric, which is generalizable to other tasks. We publicly release the annotated chunks of data and our codes to aid the reproducibility and evaluation of other models.
翻訳日:2024-04-09 20:19:42 公開日:2024-04-06
# 言語モデルにおける文脈と事前知識

Context versus Prior Knowledge in Language Models ( http://arxiv.org/abs/2404.04633v1 )

ライセンス: Link先を確認
Kevin Du, Vésteinn Snæbjarnarson, Niklas Stoehr, Jennifer C. White, Aaron Schein, Ryan Cotterell, (参考訳) 質問に答えるために、言語モデルはしばしば、事前学習中に学んだ事前知識と、文脈で提示された新しい情報を統合する必要がある。 モデルは、トレーニングコーパスの露出が大きいため、より親しみやすいエンティティ(例えば、人、場所など)に関する質問に対する事前の知識に頼り、いくつかのコンテキストによってより容易に説得される、という仮説を立てています。 この問題を定式化するために、あるコンテキストに対するモデルの依存性と、そのエンティティに関する先行性を測定するための2つの相互情報ベースのメトリクスを提案する。 確立された測定モデリング手法に従って,これらの指標の有効性と信頼性を実証的に検証する。 最後に、スコアとモデルが期待するエンティティとの親和性の関係を調べ、その利点を説明するための2つのユースケースを提供します。

To answer a question, language models often need to integrate prior knowledge learned during pretraining and new information presented in context. We hypothesize that models perform this integration in a predictable way across different questions and contexts: models will rely more on prior knowledge for questions about entities (e.g., persons, places, etc.) that they are more familiar with due to higher exposure in the training corpus, and be more easily persuaded by some contexts than others. To formalize this problem, we propose two mutual information-based metrics to measure a model's dependency on a context and on its prior about an entity: first, the persuasion score of a given context represents how much a model depends on the context in its decision, and second, the susceptibility score of a given entity represents how much the model can be swayed away from its original answer distribution about an entity. Following well-established measurement modeling methods, we empirically test for the validity and reliability of these metrics. Finally, we explore and find a relationship between the scores and the model's expected familiarity with an entity, and provide two use cases to illustrate their benefits.
翻訳日:2024-04-09 20:19:42 公開日:2024-04-06
# 深部透視-肺X線異常自動検出システム

A Deep Look Into -- Automated Lung X-Ray Abnormality Detection System ( http://arxiv.org/abs/2404.04635v1 )

ライセンス: Link先を確認
Nagullas KS, Vivekanand. V, Narayana Darapaneni, Anwesh R P, (参考訳) 紹介:自動肺X線異常検出システムは、感染したX線画像と感染したX線画像とを区別し、予測対象とする領域をハイライトするアプリケーションである。 閉塞性:現在の状況では、感染するウイルス病はパンデミックの可能性があるため、安価で早期に検出できるシステムが必要である。 方法: この研究は専門家の仕事を容易にし、さらなる分析を行うのに役立つでしょう。 DenseNet、MobileNet、VGG16といった既存の3つのモデルの精度は高かったが、主に黒と白のイメージによって過度に適合していた。 結果: この結果、V-BreathNetのような新しい手法が96%以上の精度で構築された。 結論: 現状のCNNモデルはB/W画像上では使用できない。 結論として、最先端のCNNモデルはB/W画像上では使用できない。

Introduction: Automated Lung X-Ray Abnormality Detection System is the application which distinguish the normal x-ray images from infected x-ray images and highlight area considered for prediction, with the recent pandemic a need to have a non-conventional method and faster detecting diseases, for which X ray serves the purpose. Obectives: As of current situation any viral disease that is infectious is potential pandemic, so there is need for cheap and early detection system. Methods: This research will help to eases the work of expert to do further analysis. Accuracy of three different preexisting models such as DenseNet, MobileNet and VGG16 were high but models over-fitted primarily due to black and white images. Results: This led to building up new method such as as V-BreathNet which gave more than 96% percent accuracy. Conclusion: Thus, it can be stated that not all state-of art CNN models can be used on B/W images. In conclusion not all state-of-art CNN models can be used on B/W images.
翻訳日:2024-04-09 20:19:42 公開日:2024-04-06
# 電力効率の良い画像ストレージ:持続圧縮・低減カーボンフットプリントのための超高分解能生成逆数ネットワークを活用する

Power-Efficient Image Storage: Leveraging Super Resolution Generative Adversarial Network for Sustainable Compression and Reduced Carbon Footprint ( http://arxiv.org/abs/2404.04642v1 )

ライセンス: Link先を確認
Ashok Mondal, Satyam Singh, (参考訳) 近年、クラウドストレージソリューションの大規模導入は、デジタルデータストレージに対する考え方に革命をもたらしています。 しかし、データ量、特に画像の指数的な増加は、電力と資源消費に関する環境懸念を増し、デジタルカーボンフットプリントの排出量は増加している。 本研究の目的は,画像圧縮技術と超解像生成支援ネットワーク(SRGAN)を統合することにより,クラウドベースの画像記憶手法を提案することである。 当社のアプローチは,元々のフォーマットをクラウドに直接保存するのではなく,まずは圧縮と縮小による画像サイズ削減を,ストレージに先立って実施する。 要求されると、これらの圧縮された画像は、SRGANによって検索され、処理され、画像を生成する。 提案手法の有効性をPSNRとSSIMの指標を用いて評価した。 さらに、消費電力と炭素フットプリント評価を計算するための数学的解析が与えられる。 提案したデータ圧縮技術は, 環境の持続可能性と産業効率の適切なトレードオフを実現するための重要なソリューションを提供する。

In recent years, large-scale adoption of cloud storage solutions has revolutionized the way we think about digital data storage. However, the exponential increase in data volume, especially images, has raised environmental concerns regarding power and resource consumption, as well as the rising digital carbon footprint emissions. The aim of this research is to propose a methodology for cloud-based image storage by integrating image compression technology with SuperResolution Generative Adversarial Networks (SRGAN). Rather than storing images in their original format directly on the cloud, our approach involves initially reducing the image size through compression and downsizing techniques before storage. Upon request, these compressed images will be retrieved and processed by SRGAN to generate images. The efficacy of the proposed method is evaluated in terms of PSNR and SSIM metrics. Additionally, a mathematical analysis is given to calculate power consumption and carbon footprint assesment. The proposed data compression technique provides a significant solution to achieve a reasonable trade off between environmental sustainability and industrial efficiency.
翻訳日:2024-04-09 20:19:42 公開日:2024-04-06
# 両腕マニピュレーション向上のための複合形状上の拘束6-DoFグラフ生成

Constrained 6-DoF Grasp Generation on Complex Shapes for Improved Dual-Arm Manipulation ( http://arxiv.org/abs/2404.04643v1 )

ライセンス: Link先を確認
Gaurav Singh, Sanket Kalwar, Md Faizal Karim, Bipasha Sen, Nagamanikandan Govindan, Srinath Sridhar, K Madhava Krishna, (参考訳) 物体の特定の領域に合わせたグリップポーズを効果的に生成することは、様々なロボット操作作業、特にデュアルアーム設定において不可欠である。 このシナリオは、局所幾何学の深い理解が必要であり、指定された制約された領域の把握を効率的に行うため、複雑な幾何学が関与しているため、重大な課題となる。 既存のメソッドはテーブルトップ/小さなオブジェクトを含む設定のみを探索し、トレーニングに拡張データセットを必要とし、複雑なオブジェクトのパフォーマンスを制限する。 CGDF(Constrained Grasp Diffusion Fields)は、任意のジオメトリを持つ物体に一般化する拡散型グリップ生成モデルであり、対象領域の密接なグリップを生成する。 CGDFは部分誘導拡散方式を採用しており、大量の制約付きデータセットを明示的にトレーニングすることなく、制約付き把握において高いサンプル効率を得ることができる。 本研究では,解析的指標を用いた定性的・定量的な比較とシミュレーションにおいて,制約のない条件と制約のない条件の両方において,本手法が複雑なオブジェクトの安定な把握(特にデュアルアーム操作設定に有用である)を一般化できることを示す。

Efficiently generating grasp poses tailored to specific regions of an object is vital for various robotic manipulation tasks, especially in a dual-arm setup. This scenario presents a significant challenge due to the complex geometries involved, requiring a deep understanding of the local geometry to generate grasps efficiently on the specified constrained regions. Existing methods only explore settings involving table-top/small objects and require augmented datasets to train, limiting their performance on complex objects. We propose CGDF: Constrained Grasp Diffusion Fields, a diffusion-based grasp generative model that generalizes to objects with arbitrary geometries, as well as generates dense grasps on the target regions. CGDF uses a part-guided diffusion approach that enables it to get high sample efficiency in constrained grasping without explicitly training on massive constraint-augmented datasets. We provide qualitative and quantitative comparisons using analytical metrics and in simulation, in both unconstrained and constrained settings to show that our method can generalize to generate stable grasps on complex objects, especially useful for dual-arm manipulation settings, while existing methods struggle to do so.
翻訳日:2024-04-09 20:19:42 公開日:2024-04-06
# HyperTTS:Hypernetworksを用いたテキストから音声へのパラメータ適応

HyperTTS: Parameter Efficient Adaptation in Text to Speech using Hypernetworks ( http://arxiv.org/abs/2404.04645v1 )

ライセンス: Link先を確認
Yingting Li, Rishabh Bhardwaj, Ambuj Mehrish, Bo Cheng, Soujanya Poria, (参考訳) ニューラル音声合成(英: Neural speech synthesis、TTS)は、テキスト領域から音声領域へ信号を変換することを目的としている。 同じスピーカーセット上でトレーニングとテストを行うTSアーキテクチャの開発には、大幅な改善が加えられているが、ドメイン外話者のパフォーマンスには、依然として大きな制限がある。 新しい話者集合に対するドメイン適応は、新しいドメインごとにモデル全体を微調整することで達成され、パラメータ非効率になる。 この問題は、ドメイン適応のパラメータ効率の良い代替手段を提供するアダプタによって解決できる。 NLPでは有名だが、音声合成はAdaptersからはあまり改善されていない。 本研究では,Adapterブロックのパラメータを生成するネットワークであるHyperTTSを提案する。 2つの領域適応設定の広範囲な評価は、パラメータ効率の良い状態における最先端性能を達成する上での有効性を示す。 また、HyperTTSの異なる変種を比較し、異なる研究におけるベースラインと比較する。 ハイパーネットを用いたアダプタパラメータの動的適応に関する提案結果は、ドメインジェネリックなマルチスピーカTSシステムのための新しい道を開く。 オーディオサンプルとコードはhttps://github.com/declare-lab/HyperTTS.comで入手できる。

Neural speech synthesis, or text-to-speech (TTS), aims to transform a signal from the text domain to the speech domain. While developing TTS architectures that train and test on the same set of speakers has seen significant improvements, out-of-domain speaker performance still faces enormous limitations. Domain adaptation on a new set of speakers can be achieved by fine-tuning the whole model for each new domain, thus making it parameter-inefficient. This problem can be solved by Adapters that provide a parameter-efficient alternative to domain adaptation. Although famous in NLP, speech synthesis has not seen much improvement from Adapters. In this work, we present HyperTTS, which comprises a small learnable network, "hypernetwork", that generates parameters of the Adapter blocks, allowing us to condition Adapters on speaker representations and making them dynamic. Extensive evaluations of two domain adaptation settings demonstrate its effectiveness in achieving state-of-the-art performance in the parameter-efficient regime. We also compare different variants of HyperTTS, comparing them with baselines in different studies. Promising results on the dynamic adaptation of adapter parameters using hypernetworks open up new avenues for domain-generic multi-speaker TTS systems. The audio samples and code are available at https://github.com/declare-lab/HyperTTS.
翻訳日:2024-04-09 20:19:42 公開日:2024-04-06
# Norm-Regularized Adversarial Trainingによる構造的勾配に基づく解釈

Structured Gradient-based Interpretations via Norm-Regularized Adversarial Training ( http://arxiv.org/abs/2404.04647v1 )

ライセンス: Link先を確認
Shizhan Gong, Qi Dou, Farzan Farnia, (参考訳) 勾配に基づく従順性マップは、ディープニューラルネットワーク分類器の決定を説明するために広く使われている。 しかし、単純な勾配と積分勾配アルゴリズムを含む標準勾配に基づく解釈マップは、現実のコンピュータビジョンモデルへの応用において、空間性や接続性のような望ましい構造を欠いていることが多い。 勾配に基づく正則写像にスパーシティ構造を誘導するためのよく使われるアプローチは、スパーシフィケーションやノルムベースの正則化を用いて単純な勾配スキームを変更することである。 このようなポストプロセッシング手法の欠点は、元の単純勾配写像に対する忠実度がしばしば失われることである。 そこで本研究では,ニューラルネットワークを単純な勾配マップで学習するプロセス内スキームとして,逆トレーニングを適用することを提案する。 直交摂動の正規化ノルムと勾配に基づく写像との双対性関係を示し、簡単な勾配写像におけるスパーシティとグループスパーシティ性を促進する対向訓練損失関数を設計する。 提案手法が標準ニューラルネットワークアーキテクチャの標準勾配図とベンチマーク画像データセットに与える影響を示すために,いくつかの数値的な結果を示す。

Gradient-based saliency maps have been widely used to explain the decisions of deep neural network classifiers. However, standard gradient-based interpretation maps, including the simple gradient and integrated gradient algorithms, often lack desired structures such as sparsity and connectedness in their application to real-world computer vision models. A frequently used approach to inducing sparsity structures into gradient-based saliency maps is to alter the simple gradient scheme using sparsification or norm-based regularization. A drawback with such post-processing methods is their frequently-observed significant loss in fidelity to the original simple gradient map. In this work, we propose to apply adversarial training as an in-processing scheme to train neural networks with structured simple gradient maps. We show a duality relation between the regularized norms of the adversarial perturbations and gradient-based maps, based on which we design adversarial training loss functions promoting sparsity and group-sparsity properties in simple gradient maps. We present several numerical results to show the influence of our proposed norm-based adversarial training methods on the standard gradient-based maps of standard neural network architectures on benchmark image datasets.
翻訳日:2024-04-09 20:09:57 公開日:2024-04-06
# CANEDERLI:CAN侵入検知システムにおける対人訓練と伝達性の影響について

CANEDERLI: On The Impact of Adversarial Training and Transferability on CAN Intrusion Detection Systems ( http://arxiv.org/abs/2404.04648v1 )

ライセンス: Link先を確認
Francesco Marchiori, Mauro Conti, (参考訳) 車両と外部ネットワークの統合が拡大し、コントロールエリアネットワーク(CAN)の内部バスをターゲットにした攻撃が急増した。 対策として,様々な侵入検知システム(IDS)が文献で提案されている。 車両間通信(V2V)と車両間通信(V2I)の統合によるデータ量の増大に伴い、これらのシステムの多くは機械学習(ML)やディープラーニング(DL)モデルのようなデータ駆動型アプローチに依存している。 しかし、これらのシステムは敵の回避攻撃の影響を受けやすい。 多くの研究者がこの脆弱性を調査しているが、彼らの研究は非現実的な仮定、現実的な脅威モデルへの考慮の欠如、効果的な解決策の提供に失敗することが多い。 本稿では、CANベースのIDSを保護するための新しいフレームワークであるCaneDERLI(CAN Evasion Detection Resilience)を提案する。 本システムは,現実的な脅威モデルであり,DLに基づく検知システムに対する敵攻撃の影響に対処する。 本研究は,複数の最先端攻撃とモデルアーキテクチャを考慮し,多様な攻撃手法間での強い伝達性特性を明らかにする。 本稿では,この脅威に対処する上での対人訓練の効果を分析し,F1スコアが0.941までの従来の微調整手法を駆使した適応型オンライン対人訓練手法を提案する。 当社のフレームワークを一般公開することで,IDSのレジリエンスをさまざまな対向的な環境に適応する上で,実践者や研究者を支援することができる。

The growing integration of vehicles with external networks has led to a surge in attacks targeting their Controller Area Network (CAN) internal bus. As a countermeasure, various Intrusion Detection Systems (IDSs) have been suggested in the literature to prevent and mitigate these threats. With the increasing volume of data facilitated by the integration of Vehicle-to-Vehicle (V2V) and Vehicle-to-Infrastructure (V2I) communication networks, most of these systems rely on data-driven approaches such as Machine Learning (ML) and Deep Learning (DL) models. However, these systems are susceptible to adversarial evasion attacks. While many researchers have explored this vulnerability, their studies often involve unrealistic assumptions, lack consideration for a realistic threat model, and fail to provide effective solutions. In this paper, we present CANEDERLI (CAN Evasion Detection ResiLIence), a novel framework for securing CAN-based IDSs. Our system considers a realistic threat model and addresses the impact of adversarial attacks on DL-based detection systems. Our findings highlight strong transferability properties among diverse attack methodologies by considering multiple state-of-the-art attacks and model architectures. We analyze the impact of adversarial training in addressing this threat and propose an adaptive online adversarial training technique outclassing traditional fine-tuning methodologies with F1 scores up to 0.941. By making our framework publicly available, we aid practitioners and researchers in assessing the resilience of IDSs to a varied adversarial landscape.
翻訳日:2024-04-09 20:09:57 公開日:2024-04-06
# InitNO:初期雑音最適化によるテキスト・画像拡散モデルの構築

InitNO: Boosting Text-to-Image Diffusion Models via Initial Noise Optimization ( http://arxiv.org/abs/2404.04650v1 )

ライセンス: Link先を確認
Xiefan Guo, Jinlin Liu, Miaomiao Cui, Jiankai Li, Hongyu Yang, Di Huang, (参考訳) 安定拡散のような進歩によって実証された拡散モデルの開発における最近の進歩は、視覚的に魅力的な画像を生成するという彼らの顕著な成果を裏付けている。 しかし、生成した画像と提供されたプロンプトとのシームレスなアライメントを達成するという命令は、非常に難しい課題として持続する。 本稿では,初期雑音を除去する手法である初期雑音最適化(Initial noise Optimization, InitNO)の手法を提案する。 テキストのプロンプトを考えると、すべてのランダムノイズが意味に忠実な画像の合成に有効であるわけではない。 我々は、初期雑音を評価するために、クロスアテンション応答スコアと自己アテンション競合スコアを設計し、初期潜在空間を有効かつ無効なセクターに分岐させる。 戦略的に構築されたノイズ最適化パイプラインは、初期ノイズを有効領域へ導くために開発された。 厳密な実験によって検証された本手法は,テキストのプロンプトに厳密な一致で画像を生成する能力を示す。 私たちのコードはhttps://github.com/xiefan-guo/initno.comから入手可能です。

Recent strides in the development of diffusion models, exemplified by advancements such as Stable Diffusion, have underscored their remarkable prowess in generating visually compelling images. However, the imperative of achieving a seamless alignment between the generated image and the provided prompt persists as a formidable challenge. This paper traces the root of these difficulties to invalid initial noise, and proposes a solution in the form of Initial Noise Optimization (InitNO), a paradigm that refines this noise. Considering text prompts, not all random noises are effective in synthesizing semantically-faithful images. We design the cross-attention response score and the self-attention conflict score to evaluate the initial noise, bifurcating the initial latent space into valid and invalid sectors. A strategically crafted noise optimization pipeline is developed to guide the initial noise towards valid regions. Our method, validated through rigorous experimentation, shows a commendable proficiency in generating images in strict accordance with text prompts. Our code is available at https://github.com/xiefan-guo/initno.
翻訳日:2024-04-09 20:09:57 公開日:2024-04-06
# HawkDrive:夜間の自動運転のためのトランスフォーマー駆動型視覚知覚システム

HawkDrive: A Transformer-driven Visual Perception System for Autonomous Driving in Night Scene ( http://arxiv.org/abs/2404.04653v1 )

ライセンス: Link先を確認
Ziang Guo, Stepan Perminov, Mikhail Konenkov, Dzmitry Tsetserukou, (参考訳) 自律運転シナリオのための多くの確立された視覚認識システムは、運転安全の重要な要素である光条件の影響を無視している。 この問題に対処するため,ハードウェアとソフトウェアを併用した新しい認識システムであるHawkDriveを提案する。 立体視知覚を利用するハードウェアは、単眼視よりも深度情報を推定する信頼性の高い方法として実証されており、エッジコンピューティングデバイスNvidia Jetson Xavier AGXとパートナーしている。 低光強調、深度推定、セマンティックセグメンテーションタスクのためのソフトウェアは、トランスフォーマーベースのニューラルネットワークである。 高速な推論とノイズ低減を可能にするソフトウェアスタックは,ロボットオペレーティングシステム2(ROS2)のシステムモジュールにパッケージ化されている。 実験結果から,提案手法は深度推定とセマンティックセグメンテーション性能の向上に有効であることがわかった。 データセットとコードはhttps://github.com/ZionGo6/HawkDrive.comでリリースされます。

Many established vision perception systems for autonomous driving scenarios ignore the influence of light conditions, one of the key elements for driving safety. To address this problem, we present HawkDrive, a novel perception system with hardware and software solutions. Hardware that utilizes stereo vision perception, which has been demonstrated to be a more reliable way of estimating depth information than monocular vision, is partnered with the edge computing device Nvidia Jetson Xavier AGX. Our software for low light enhancement, depth estimation, and semantic segmentation tasks, is a transformer-based neural network. Our software stack, which enables fast inference and noise reduction, is packaged into system modules in Robot Operating System 2 (ROS2). Our experimental results have shown that the proposed end-to-end system is effective in improving the depth estimation and semantic segmentation performance. Our dataset and codes will be released at https://github.com/ZionGo6/HawkDrive.
翻訳日:2024-04-09 20:09:57 公開日:2024-04-06
# 表情認識に基づく音楽レコメンデーション

Music Recommendation Based on Facial Emotion Recognition ( http://arxiv.org/abs/2404.04654v1 )

ライセンス: Link先を確認
Rajesh B, Keerthana V, Narayana Darapaneni, Anwesh Reddy P, (参考訳) はじめに:音楽は、個人が自分の考えや感情を表現するための驚くべき道を提供すると同時に、愛好家や音楽愛好家にとって楽しいエンターテイメントのモードとして機能する。 目的:本稿では,GRAD-CAMを用いた感情認識,音楽レコメンデーション,説明可能なAIの統合を通じて,ユーザエクスペリエンスを向上させるための包括的アプローチを提案する。 方法:提案手法は,表情認識(FER)データセットに基づいて訓練されたResNet50モデルを用いて,様々な感情を表現した個人の実像から構成する。 結果: 感情分類の精度は82%であった。 GRAD-CAMを利用することで、このモデルは予測の説明を提供し、ユーザーはシステムのレコメンデーションの背後にある理由を理解することができる。 このモデルは、ラベル付き表情や、さまざまな感情を表現する個人の実際のイメージを含む、FERと実際のユーザーデータセットの両方に基づいて訓練されている。 トレーニングプロセスは、入力イメージの事前処理、畳み込み層による特徴抽出、高密度層による推論、出力層による感情予測の生成を含む。 結論: 提案された方法論は、ROIベースの分析と説明可能なAI技術を備えたResnet50モデルを活用することで、顔の感情検出用紙の堅牢で解釈可能なソリューションを提供する。

Introduction: Music provides an incredible avenue for individuals to express their thoughts and emotions, while also serving as a delightful mode of entertainment for enthusiasts and music lovers. Objectives: This paper presents a comprehensive approach to enhancing the user experience through the integration of emotion recognition, music recommendation, and explainable AI using GRAD-CAM. Methods: The proposed methodology utilizes a ResNet50 model trained on the Facial Expression Recognition (FER) dataset, consisting of real images of individuals expressing various emotions. Results: The system achieves an accuracy of 82% in emotion classification. By leveraging GRAD-CAM, the model provides explanations for its predictions, allowing users to understand the reasoning behind the system's recommendations. The model is trained on both FER and real user datasets, which include labelled facial expressions, and real images of individuals expressing various emotions. The training process involves pre-processing the input images, extracting features through convolutional layers, reasoning with dense layers, and generating emotion predictions through the output layer Conclusion: The proposed methodology, leveraging the Resnet50 model with ROI-based analysis and explainable AI techniques, offers a robust and interpretable solution for facial emotion detection paper.
翻訳日:2024-04-09 20:09:57 公開日:2024-04-06
# 大規模言語モデルアライメントのためのバイナリ分類器最適化

Binary Classifier Optimization for Large Language Model Alignment ( http://arxiv.org/abs/2404.04656v1 )

ライセンス: Link先を確認
Seungjae Jung, Gunsoo Han, Daniel Wontae Nam, Kyoung-Woon On, (参考訳) 大きな言語モデル(LLM)を好みの最適化を通じて人間の好みに適応させることは重要であるが、それぞれのプロンプトに労働集約的であり、評価者によって選択されたテキストと拒否されたテキストの比較が必要である。 近年、KTO (Kahneman-Tversky Optimization) は、各プロンプト・コンプリート・ペア上で、単に2つの"thumbs-up"信号や"thumbs-down"信号を使ってLCMを整列させることができることを示した。 本稿では、これらのバイナリ信号によって達成されたアライメントを理論的に説明するための基礎について述べる。 我々の分析では、ロジットが報酬であるバイナリ分類器を最適化することで、直接優先度最適化(DPO)損失の最小化を暗黙的に誘導する、という新しい視点を明らかにした。 この発見の過程で、報酬シフトと基礎となる分布マッチングという、効果的なアライメントのための2つのテクニックを特定した。 そこで本研究では,この手法を統合した新しいアルゴリズムである‘textit{Binary Classifier Optimization} を提案する。 提案手法は,DPOとKTOと同等に動作するペア選好データセットと,親指アップデータと親指ダウンデータの間で異なる基底分布を持つ実世界の条件をシミュレートしたバイナリ信号データセットの2つの設定で検証する。 我々のモデルは、2つの基本LLMと3つの異なるバイナリ信号データセット間で有効でロバストなアライメントを示し、バイナリフィードバックから学習するアプローチの強みを示します。

Aligning Large Language Models (LLMs) to human preferences through preference optimization has been crucial but labor-intensive, necessitating for each prompt a comparison of both a chosen and a rejected text completion by evaluators. Recently, Kahneman-Tversky Optimization (KTO) has demonstrated that LLMs can be aligned using merely binary "thumbs-up" or "thumbs-down" signals on each prompt-completion pair. In this paper, we present theoretical foundations to explain the successful alignment achieved through these binary signals. Our analysis uncovers a new perspective: optimizing a binary classifier, whose logit is a reward, implicitly induces minimizing the Direct Preference Optimization (DPO) loss. In the process of this discovery, we identified two techniques for effective alignment: reward shift and underlying distribution matching. Consequently, we propose a new algorithm, \textit{Binary Classifier Optimization}, that integrates the techniques. We validate our methodology in two settings: first, on a paired preference dataset, where our method performs on par with DPO and KTO; and second, on binary signal datasets simulating real-world conditions with divergent underlying distributions between thumbs-up and thumbs-down data. Our model consistently demonstrates effective and robust alignment across two base LLMs and three different binary signal datasets, showcasing the strength of our approach to learning from binary feedback.
翻訳日:2024-04-09 20:09:57 公開日:2024-04-06
# 多言語事前学習と授業チューニングは言語間知識調整を改善するが、わずかにしか改善されない

Multilingual Pretraining and Instruction Tuning Improve Cross-Lingual Knowledge Alignment, But Only Shallowly ( http://arxiv.org/abs/2404.04659v1 )

ライセンス: Link先を確認
Changjiang Gao, Hongda Hu, Peng Hu, Jiajun Chen, Jixing Li, Shujian Huang, (参考訳) 英語で知識を得る能力は強いが、現在の大きな言語モデルは異なる言語で不均衡な能力を示す。 これに対処する2つのアプローチ、すなわち、多言語事前学習と多言語命令チューニングを提案する。 しかし、そのような手法がモデル内の言語間知識アライメントにどのように寄与するかは不明である。 本稿では,LLMの多言語間知識アライメントを性能,一貫性,導電率レベルにおいて評価するための体系的フレームワークであるCLiKAを提案し,多言語事前学習と指導指導がアライメントの程度に与える影響を考察した。 その結果,多言語事前学習と指導訓練は多言語間知識アライメントに有用であるが,訓練戦略を慎重に設計する必要があることがわかった。 すなわち、継続事前訓練は、他の言語のコストでターゲット言語のアライメントを改善するが、混合事前訓練は他の言語にはあまり影響しない。 また、全体的な言語間知識アライメント、特に伝導度レベルは、全ての試験されたLLMに不満足であり、多言語事前学習や指導チューニングは、言語間知識アライメントを大幅に改善することができない。

Despite their strong ability to retrieve knowledge in English, current large language models show imbalance abilities in different languages. Two approaches are proposed to address this, i.e., multilingual pretraining and multilingual instruction tuning. However, whether and how do such methods contribute to the cross-lingual knowledge alignment inside the models is unknown. In this paper, we propose CLiKA, a systematic framework to assess the cross-lingual knowledge alignment of LLMs in the Performance, Consistency and Conductivity levels, and explored the effect of multilingual pretraining and instruction tuning on the degree of alignment. Results show that: while both multilingual pretraining and instruction tuning are beneficial for cross-lingual knowledge alignment, the training strategy needs to be carefully designed. Namely, continued pretraining improves the alignment of the target language at the cost of other languages, while mixed pretraining affect other languages less. Also, the overall cross-lingual knowledge alignment, especially in the conductivity level, is unsatisfactory for all tested LLMs, and neither multilingual pretraining nor instruction tuning can substantially improve the cross-lingual knowledge conductivity.
翻訳日:2024-04-09 20:09:57 公開日:2024-04-06
# Transform then Explore: Reinforcement Learningを用いたコンビネーション最適化のためのシンプルで効果的な手法

Transform then Explore: a Simple and Effective Technique for Exploratory Combinatorial Optimization with Reinforcement Learning ( http://arxiv.org/abs/2404.04661v1 )

ライセンス: Link先を確認
Tianle Pu, Changjun Fan, Mutian Shen, Yizhou Lu, Li Zeng, Zohar Nussinov, Chao Chen, Zhong Liu, (参考訳) 生産と日常生活の両方で遭遇する多くの複雑な問題は、グラフ上の組合せ最適化問題(COP)として概念化することができる。 近年、強化学習(RL)に基づくモデルが有望な方向として登場し、COPをヒューリスティックな学習問題として扱うようになった。 しかし、現在の有限ホライゾン-MDP ベースの RL モデルには固有の制限がある。 NP-hard最適化タスクの複雑さを考えると、テスト時にソリューションを改善するために適度に探索することは許されない。 最近の試みでは、面倒でアドホックな報酬設計と状態特徴工学に焦点を当てて、この問題を解決している。 そこで本研究では,ゲージ変換(GT)という,よりシンプルで効果的な手法を提案する。 この技術は物理学から派生しているが、RLエージェントが試験中の解を継続的に改善することを可能にするのに非常に効果的である。 さらに、GTは非常にシンプルで、10行未満のPythonコードで実装でき、ほとんどのRLモデルに適用できる。 実験により,GTを用いた従来のRLモデルにより,MaxCut問題に対する最先端性能が得られた。 さらに、GT は任意の RL モデルとは独立であるため、様々な RL フレームワークにシームレスに統合することができ、一般的な COP の解法においてより効果的な探索を行うことができる。

Many complex problems encountered in both production and daily life can be conceptualized as combinatorial optimization problems (COPs) over graphs. Recent years, reinforcement learning (RL) based models have emerged as a promising direction, which treat the COPs solving as a heuristic learning problem. However, current finite-horizon-MDP based RL models have inherent limitations. They are not allowed to explore adquately for improving solutions at test time, which may be necessary given the complexity of NP-hard optimization tasks. Some recent attempts solve this issue by focusing on reward design and state feature engineering, which are tedious and ad-hoc. In this work, we instead propose a much simpler but more effective technique, named gauge transformation (GT). The technique is originated from physics, but is very effective in enabling RL agents to explore to continuously improve the solutions during test. Morever, GT is very simple, which can be implemented with less than 10 lines of Python codes, and can be applied to a vast majority of RL models. Experimentally, we show that traditional RL models with GT technique produce the state-of-the-art performances on the MaxCut problem. Furthermore, since GT is independent of any RL models, it can be seamlessly integrated into various RL frameworks, paving the way of these models for more effective explorations in the solving of general COPs.
翻訳日:2024-04-09 20:09:57 公開日:2024-04-06
# ニューラルネットワーク検証のための最小NAP仕様の学習

Learning Minimal NAP Specifications for Neural Network Verification ( http://arxiv.org/abs/2404.04662v1 )

ライセンス: Link先を確認
Chuqin Geng, Zhaoyue Wang, Haolin Ye, Saifei Liao, Xujie Si, (参考訳) 仕様はニューラルネットワークの検証において重要な役割を果たす。 彼らは我々が検証しようとする正確な入力領域を定義し、典型的にはL-無限ノルム球として表される。 最近の研究では、未確認のテストデータセットを検証するための仕様として、ニューラルアクティベーションパターン(NAP)を使用することが提案されているが、最も洗練されたNAPの計算に焦点を当てており、しばしば入力空間の非常に小さな領域に限られている。 本稿では,ニューラルネットワークが与えられた場合,ネットワークの堅牢性の形式的検証に十分な最小限の(最も粗い)NAPを求める。 最小のNAP仕様を見つけることは、検証可能な境界を広げるだけでなく、どのニューロンがモデルの堅牢性に寄与するかの洞察を与える。 この問題に対処するために、我々はいくつかの正確で近似的なアプローチを提案する。 我々の正確なアプローチは、検証ツールを利用して、決定論的または統計的に最小限のNAP仕様を見つけます。 近似手法は, 検証ツールを呼び出すことなく, 逆例と局所勾配を用いて最小NAPを効率的に推定する。 これにより、ニューロン間の潜在的な因果関係と、既存の検証フレームワークがスケールできないタスクである最先端のニューラルネットワークの堅牢性を調べることができる。 我々の実験結果から、最小のNAP仕様は最も洗練されたNAP仕様よりもはるかに少ない神経細胞を必要とすることが示唆されるが、検証可能な境界を桁違いに大きく拡張することができる。

Specifications play a crucial role in neural network verification. They define the precise input regions we aim to verify, typically represented as L-infinity norm balls. While recent research suggests using neural activation patterns (NAPs) as specifications for verifying unseen test set data, it focuses on computing the most refined NAPs, often limited to very small regions in the input space. In this paper, we study the following problem: Given a neural network, find a minimal (coarsest) NAP that is sufficient for formal verification of the network's robustness. Finding the minimal NAP specification not only expands verifiable bounds but also provides insights into which neurons contribute to the model's robustness. To address this problem, we propose several exact and approximate approaches. Our exact approaches leverage the verification tool to find minimal NAP specifications in either a deterministic or statistical manner. Whereas the approximate methods efficiently estimate minimal NAPs using adversarial examples and local gradients, without making calls to the verification tool. This allows us to inspect potential causal links between neurons and the robustness of state-of-the-art neural networks, a task for which existing verification frameworks fail to scale. Our experimental results suggest that minimal NAP specifications require much smaller fractions of neurons compared to the most refined NAP specifications, yet they can significantly expand the verifiable boundaries to several orders of magnitude larger.
翻訳日:2024-04-09 20:09:57 公開日:2024-04-06
# 病理画像分類のための集中型能動学習

Focused Active Learning for Histopathological Image Classification ( http://arxiv.org/abs/2404.04663v1 )

ライセンス: Link先を確認
Arne Schmidt, Pablo Morales-Álvarez, Lee A. D. Cooper, Lee A. Newberg, Andinet Enquobahrie, Aggelos K. Katsaggelos, Rafael Molina, (参考訳) アクティブラーニング(AL)は、機械学習アルゴリズムのためのラベル付きデータの効率的な取得という、デジタル病理の大きな問題を解決する可能性がある。 しかしながら、既存のALメソッドは、医療分野でよく見られるように、アーティファクト、あいまいさ、クラス不均衡と現実的な設定で苦労することが多い。 正確な不確実性推定の欠如は、情報的価値の低い画像の取得につながる。 これらの課題に対処するために,ベイズニューラルネットワークとアウト・オブ・ディストリビューション検出を組み合わせたFocALを提案する。 特に、重み付きてんかんの不確実性は、クラス不均衡、曖昧な画像に対するアレター的不確実性、人工物に対するOoDスコアを考慮に入れている。 我々は,前立腺癌の分類のためのMNISTと実世界のパンダデータセットの手法を検証するために,広範囲な実験を行った。 その結果、他のALメソッドは、パフォーマンスを損なう曖昧さやアーティファクトによって「引き離される」ことが確認された。 FocALは、取得中の曖昧さやアーティファクトを避けるため、最も情報性の高い画像に効果的に焦点を合わせている。 どちらの実験でも、FocALは既存のALアプローチよりも優れており、コーエンのカッパは0.764で、ラベル付きパンダデータのわずか0.69%である。

Active Learning (AL) has the potential to solve a major problem of digital pathology: the efficient acquisition of labeled data for machine learning algorithms. However, existing AL methods often struggle in realistic settings with artifacts, ambiguities, and class imbalances, as commonly seen in the medical field. The lack of precise uncertainty estimations leads to the acquisition of images with a low informative value. To address these challenges, we propose Focused Active Learning (FocAL), which combines a Bayesian Neural Network with Out-of-Distribution detection to estimate different uncertainties for the acquisition function. Specifically, the weighted epistemic uncertainty accounts for the class imbalance, aleatoric uncertainty for ambiguous images, and an OoD score for artifacts. We perform extensive experiments to validate our method on MNIST and the real-world Panda dataset for the classification of prostate cancer. The results confirm that other AL methods are 'distracted' by ambiguities and artifacts which harm the performance. FocAL effectively focuses on the most informative images, avoiding ambiguities and artifacts during acquisition. For both experiments, FocAL outperforms existing AL approaches, reaching a Cohen's kappa of 0.764 with only 0.69% of the labeled Panda data.
翻訳日:2024-04-09 20:09:57 公開日:2024-04-06
# 教師なし人物再同定のための適応型クラス内変動コントラスト学習

Adaptive Intra-Class Variation Contrastive Learning for Unsupervised Person Re-Identification ( http://arxiv.org/abs/2404.04665v1 )

ライセンス: Link先を確認
Lingzhi Liu, Haiyang Zhang, Chengwei Tang, Tiantian Zhang, (参考訳) メモリ辞書に基づくコントラスト学習法は教師なしのRe-ID分野において顕著な成果を上げている。 しかし,全てのサンプルに基づいてメモリを更新する方法は,モデルの一般化能力を向上させるために最も難しいサンプルを十分に利用していないため,最強サンプルマイニングに基づく手法は,モデルの初期において誤ってクラスタ化されている偽陽性サンプルを必然的に導入する。 クラスタリングベースのメソッドは通常、かなりの数のアウトリーチを破棄し、貴重な情報が失われる。 これまでに述べた問題に対処するため、AdaInCVと呼ばれる教師なしRe-IDのための適応型クラス内変動コントラスト学習アルゴリズムを提案する。 また,クラスタリング後のクラス内変動を考慮し,各クラスの学習能力を定量的に評価し,モデルの学習過程における適切なサンプルの選択を支援する。 より具体的には、Adaptive Sample Mining (AdaSaM) とAdaptive Outlier Filter (AdaOF) の2つの新しい戦略が提案されている。 第1のクラスタは徐々に信頼性の高いクラスタを生成して動的にメモリを洗練させ、第2のクラスタは貴重なアウトリーチを負のサンプルとして識別し、フィルタリングすることができる。

The memory dictionary-based contrastive learning method has achieved remarkable results in the field of unsupervised person Re-ID. However, The method of updating memory based on all samples does not fully utilize the hardest sample to improve the generalization ability of the model, and the method based on hardest sample mining will inevitably introduce false-positive samples that are incorrectly clustered in the early stages of the model. Clustering-based methods usually discard a significant number of outliers, leading to the loss of valuable information. In order to address the issues mentioned before, we propose an adaptive intra-class variation contrastive learning algorithm for unsupervised Re-ID, called AdaInCV. And the algorithm quantitatively evaluates the learning ability of the model for each class by considering the intra-class variations after clustering, which helps in selecting appropriate samples during the training process of the model. To be more specific, two new strategies are proposed: Adaptive Sample Mining (AdaSaM) and Adaptive Outlier Filter (AdaOF). The first one gradually creates more reliable clusters to dynamically refine the memory, while the second can identify and filter out valuable outliers as negative samples.
翻訳日:2024-04-09 20:09:57 公開日:2024-04-06
# オンコロジーにおける臨床診断のための自律型人工知能エージェント

Autonomous Artificial Intelligence Agents for Clinical Decision Making in Oncology ( http://arxiv.org/abs/2404.04667v1 )

ライセンス: Link先を確認
Dyke Ferber, Omar S. M. El Nahhas, Georg Wölflein, Isabella C. Wiest, Jan Clusmann, Marie-Elisabeth Leßman, Sebastian Foersch, Jacqueline Lammert, Maximilian Tschochohei, Dirk Jäger, Manuel Salto-Tellez, Nikolaus Schultz, Daniel Truhn, Jakob Nikolas Kather, (参考訳) マルチモーダル人工知能(AI)システムは、様々な種類の医療データを解釈することで、臨床上の意思決定を強化する可能性がある。 しかし、全ての医療分野におけるこれらのモデルの有効性は不確実である。 それぞれの規律は、最適なパフォーマンスのために対処する必要があるユニークな課題を提示します。 この複雑さは、異なるフィールドを単一のモデルに統合しようとするとさらに増大する。 本稿では,大規模言語モデル(LLM)を中心的推論エンジンとして活用する,マルチモーダル医療用AIの代替手法を提案する。 このエンジンは、医療用AIツールのセットを自律的に調整し、デプロイする。 これらのツールには、テキスト、放射線学、病理組織像の解釈、ゲノムデータ処理、Web検索、および医療ガイドラインからの文書検索が含まれる。 患者ケアのワークフローによく似た一連の臨床腫瘍学シナリオにまたがって,本システムを検証した。 適切なツール(97%),正しい結論(93.6%),完全(94%),有用(89.2%)のレコメンデーションを提供するとともに,関連する文献(82.5%)を一貫して参照している。 この研究は、LLMが自律エージェントとして使われる際に、新しい情報を検索したり合成したりするためのドメイン固有のモデルを効果的に計画し実行することができるという証拠を提供する。 これにより、専門的かつ患者に合った臨床助手として機能することができる。 また、各コンポーネントツールを個別に検証し、承認することで、規制コンプライアンスを簡素化する。 我々は、我々の研究が、医療領域におけるより高度なLCMエージェントに対する概念実証の役割を果たすと信じている。

Multimodal artificial intelligence (AI) systems have the potential to enhance clinical decision-making by interpreting various types of medical data. However, the effectiveness of these models across all medical fields is uncertain. Each discipline presents unique challenges that need to be addressed for optimal performance. This complexity is further increased when attempting to integrate different fields into a single model. Here, we introduce an alternative approach to multimodal medical AI that utilizes the generalist capabilities of a large language model (LLM) as a central reasoning engine. This engine autonomously coordinates and deploys a set of specialized medical AI tools. These tools include text, radiology and histopathology image interpretation, genomic data processing, web searches, and document retrieval from medical guidelines. We validate our system across a series of clinical oncology scenarios that closely resemble typical patient care workflows. We show that the system has a high capability in employing appropriate tools (97%), drawing correct conclusions (93.6%), and providing complete (94%), and helpful (89.2%) recommendations for individual patient cases while consistently referencing relevant literature (82.5%) upon instruction. This work provides evidence that LLMs can effectively plan and execute domain-specific models to retrieve or synthesize new information when used as autonomous agents. This enables them to function as specialist, patient-tailored clinical assistants. It also simplifies regulatory compliance by allowing each component tool to be individually validated and approved. We believe, that our work can serve as a proof-of-concept for more advanced LLM-agents in the medical domain.
翻訳日:2024-04-09 20:09:57 公開日:2024-04-06
# 不正確な学習によるドメインの一般化

Domain Generalisation via Imprecise Learning ( http://arxiv.org/abs/2404.04669v1 )

ライセンス: Link先を確認
Anurag Singh, Siu Lun Chau, Shahine Bouabid, Krikamol Muandet, (参考訳) アウト・オブ・ディストリビューション(OOD)の一般化は、経験的データから学習するだけでなく、例えば、平均ケースリスク、最悪のケースリスク、またはその補間を最適化するといった、様々な一般化の考え方の中から決定するからである。 この選択は原則として、医師のようなモデルオペレーターが行うべきであるが、この情報はトレーニング時に常に利用できるとは限らない。 機械学習者とモデルオペレーターとの制度的な分離は、これらの展開の不確実性により、機械学習者による特定の一般化戦略への任意のコミットメントをもたらす。 本稿では、この課題を緩和するために、トレーニング中の一般化戦略の連続スペクトルに対して最適化することで、学習者が不正確な状態を維持することができる不正確なリスク最適化と、運用者がデプロイ時に一般化優先を指定できるモデルフレームワークを導入する。 理論的および実証的な証拠の両方によって支持され、我々の研究は、不正確さをドメインの一般化に組み込むことの利点を示している。

Out-of-distribution (OOD) generalisation is challenging because it involves not only learning from empirical data, but also deciding among various notions of generalisation, e.g., optimising the average-case risk, worst-case risk, or interpolations thereof. While this choice should in principle be made by the model operator like medical doctors, this information might not always be available at training time. The institutional separation between machine learners and model operators leads to arbitrary commitments to specific generalisation strategies by machine learners due to these deployment uncertainties. We introduce the Imprecise Domain Generalisation framework to mitigate this, featuring an imprecise risk optimisation that allows learners to stay imprecise by optimising against a continuous spectrum of generalisation strategies during training, and a model framework that allows operators to specify their generalisation preference at deployment. Supported by both theoretical and empirical evidence, our work showcases the benefits of integrating imprecision into domain generalisation.
翻訳日:2024-04-09 20:09:57 公開日:2024-04-06
# 大規模言語モデルの系統推定とベンチマークにおける性能予測

Inferring the Phylogeny of Large Language Models and Predicting their Performances in Benchmarks ( http://arxiv.org/abs/2404.04671v1 )

ライセンス: Link先を確認
Nicolas Yax, Pierre-Yves Oudeyer, Stefano Palminteri, (参考訳) 本稿では,系統解析アルゴリズムを大規模言語モデルに適用し,それらの微調整関係を探索し,その性能特性を予測するPhyloLMを提案する。 系統的距離測定を利用して、異なるLLMファミリー(77のオープンソースモデルと22のクローズドモデルを含む)を良好に捕捉するデンドログラムを構築する。 さらに、系統的距離はベンチマークの性能を予測し(MMLUとARCをテストする)、LLMの能力の時間的・費用的評価を可能にする。 このアプローチは遺伝的概念を機械学習に翻訳し、透明なトレーニング情報がない場合でも、LCMの開発、関係、能力を予測するツールを提供する。

This paper introduces PhyloLM, a method applying phylogenetic algorithms to Large Language Models to explore their finetuning relationships, and predict their performance characteristics. By leveraging the phylogenetic distance metric, we construct dendrograms, which satisfactorily capture distinct LLM families (across a set of 77 open-source and 22 closed models). Furthermore, phylogenetic distance predicts performances in benchmarks (we test MMLU and ARC), thus enabling a time and cost-effective estimation of LLM capabilities. The approach translates genetic concepts to machine learning, offering tools to infer LLM development, relationships, and capabilities, even in the absence of transparent training information.
翻訳日:2024-04-09 20:09:57 公開日:2024-04-06
# ニューラルABC:人工装具のニューラルパラメトリックモデル

Neural-ABC: Neural Parametric Models for Articulated Body with Clothes ( http://arxiv.org/abs/2404.04673v1 )

ライセンス: Link先を確認
Honghu Chen, Yuxin Yao, Juyong Zhang, (参考訳) 本稿では,ニューラルネットワークを用いた新しいパラメトリックモデルであるNeural-ABCを紹介する。 伝統的なメッシュベースの表現は、人間の体の形や服装のスタイルの多様性やポーズの複雑さによって、衣服で明瞭な体を表現するのに苦労する。 提案モデルは, 衣服の身元, 衣服, 形状, ポーズを表現できるパラメトリックモデリングのための統一的な枠組みを提供する。 提案手法は,神経暗黙関数のパワーを基礎となる表現として利用し,必要な要求を満たすためによく設計された構造を統合する。 具体的には、基礎となる物体を符号付き距離関数として表現し、衣服を符号なし距離関数として表現し、符号なし距離場として一様に表現することができる。 異なるタイプの衣服は、事前に定義された地形構造や分類を必要としておらず、体に合うように基礎となる身体の変化に従うことができる。 さらに、制御可能な調音構造を用いてポーズを構築する。 このモデルは、オープンデータセットと、新しく構築されたデータセットの両方でトレーニングされており、当社のデカップリング戦略は、最適なパフォーマンスを確保するために慎重に設計されています。 我々のモデルは、衣服のスタイルを保ちながら、異なる形状の衣服とアイデンティティとポーズを両立させることに優れています。 我々は,ニューラルABCが異なるタイプの衣服の新たな観察に適合することを実証した。 他の最先端のパラメトリックモデルと比較して、Neural-ABCは、生のスキャン、深度マップ、画像を取り付けることによって証明されるように、衣服を被った人間の体を再構築する上で強力な利点を示している。 適合した結果の属性は、そのアイデンティティ、衣服、形状、ポーズコードを調整することで、さらに編集できることが示される。

In this paper, we introduce Neural-ABC, a novel parametric model based on neural implicit functions that can represent clothed human bodies with disentangled latent spaces for identity, clothing, shape, and pose. Traditional mesh-based representations struggle to represent articulated bodies with clothes due to the diversity of human body shapes and clothing styles, as well as the complexity of poses. Our proposed model provides a unified framework for parametric modeling, which can represent the identity, clothing, shape and pose of the clothed human body. Our proposed approach utilizes the power of neural implicit functions as the underlying representation and integrates well-designed structures to meet the necessary requirements. Specifically, we represent the underlying body as a signed distance function and clothing as an unsigned distance function, and they can be uniformly represented as unsigned distance fields. Different types of clothing do not require predefined topological structures or classifications, and can follow changes in the underlying body to fit the body. Additionally, we construct poses using a controllable articulated structure. The model is trained on both open and newly constructed datasets, and our decoupling strategy is carefully designed to ensure optimal performance. Our model excels at disentangling clothing and identity in different shape and poses while preserving the style of the clothing. We demonstrate that Neural-ABC fits new observations of different types of clothing. Compared to other state-of-the-art parametric models, Neural-ABC demonstrates powerful advantages in the reconstruction of clothed human bodies, as evidenced by fitting raw scans, depth maps and images. We show that the attributes of the fitted results can be further edited by adjusting their identities, clothing, shape and pose codes.
翻訳日:2024-04-09 20:09:57 公開日:2024-04-06
# 手続き的テキスト理解のための順序に基づく事前学習戦略

Order-Based Pre-training Strategies for Procedural Text Understanding ( http://arxiv.org/abs/2404.04676v1 )

ライセンス: Link先を確認
Abhilash Nandy, Yash Kulkarni, Pawan Goyal, Niloy Ganguly, (参考訳) 本稿では,自然言語処理における手続き的理解を高めるためのシーケンスベース事前学習手法を提案する。 タスクを遂行するためのシーケンシャルな命令を含む手続き的テキストは、コンテキスト内のエンティティの属性が変化するため、理解が難しい。 我々は、注文命令として一般的に表現されるレシピに焦点を当て、この順序を監視信号として使用する。 我々の研究は、置換分類(Permutation Classification)、埋め込み回帰( Embedding Regression)、スキップクリップ(Skip-Clip)など、いくつかの'オーダー・アズ・スーパービジョン(order as-supervision)'トランスフォーマーの事前トレーニング手法を比較した最初の1つであり、これらの手法は、2つの下流のEntity-Trackingデータセット(レシピドメインのNPN-CookingデータセットとオープンドメインのProParaデータセット)のベースラインとSoTA LLMと比較して改善された結果を示す。 提案手法は,手順の順序を理解する必要のある,手順ステップ全体にわたるエンティティ状態の予測を必要とする,非自明なエンティティ追跡タスクに対処する。 これらの手法は、NPN-CookingとProParaデータセットでそれぞれ1.6%改善し、7-9%改善した。

In this paper, we propose sequence-based pretraining methods to enhance procedural understanding in natural language processing. Procedural text, containing sequential instructions to accomplish a task, is difficult to understand due to the changing attributes of entities in the context. We focus on recipes, which are commonly represented as ordered instructions, and use this order as a supervision signal. Our work is one of the first to compare several 'order as-supervision' transformer pre-training methods, including Permutation Classification, Embedding Regression, and Skip-Clip, and shows that these methods give improved results compared to the baselines and SoTA LLMs on two downstream Entity-Tracking datasets: NPN-Cooking dataset in recipe domain and ProPara dataset in open domain. Our proposed methods address the non-trivial Entity Tracking Task that requires prediction of entity states across procedure steps, which requires understanding the order of steps. These methods show an improvement over the best baseline by 1.6% and 7-9% on NPN-Cooking and ProPara Datasets respectively across metrics.
翻訳日:2024-04-09 20:00:13 公開日:2024-04-06
# Pose-Only Supervision を用いたサルトスパース視力計測

Salient Sparse Visual Odometry With Pose-Only Supervision ( http://arxiv.org/abs/2404.04677v1 )

ライセンス: Link先を確認
Siyu Chen, Kangcheng Liu, Chen Wang, Shenghai Yuan, Jianfei Yang, Lihua Xie, (参考訳) 視覚オドメトリ(VO)は自律システムのナビゲーションに不可欠であり、適切なコストで正確な位置推定と方向推定を提供する。 従来のVOメソッドはいくつかの条件で優れているが、可変照明や動きのぼやけといった問題に悩まされている。 ディープラーニングベースのVOは、より適応性が高いが、新しい環境での一般化問題に直面する可能性がある。 これらの欠点に対処するため、ポーズのみの監視を活かし、ロバストネスと広範囲なラベリングの必要性のバランスのとれたソリューションを提供する、新しいハイブリッドビジュアル・オドメトリー(VO)フレームワークを提案する。 ポーズのみのラベルから光学フロー学習を向上するための自己教師付きホモグラフィック事前学習と、より正確な光学フローパッチ抽出のためのランダムなパッチベースサルエント点検出戦略の2つのコスト効果と革新的設計を提案する。 これらの設計は、トレーニングのための密集した光フローラベルの必要性を排除し、多様で挑戦的な環境でシステムの一般化能力を大幅に改善する。 提案手法は,高密度な光学的流れ制御手法と比較して,標準データセット上での競合性能と,極端かつ目に見えないシナリオにおけるロバスト性や一般化能力の向上を実現している。

Visual Odometry (VO) is vital for the navigation of autonomous systems, providing accurate position and orientation estimates at reasonable costs. While traditional VO methods excel in some conditions, they struggle with challenges like variable lighting and motion blur. Deep learning-based VO, though more adaptable, can face generalization problems in new environments. Addressing these drawbacks, this paper presents a novel hybrid visual odometry (VO) framework that leverages pose-only supervision, offering a balanced solution between robustness and the need for extensive labeling. We propose two cost-effective and innovative designs: a self-supervised homographic pre-training for enhancing optical flow learning from pose-only labels and a random patch-based salient point detection strategy for more accurate optical flow patch extraction. These designs eliminate the need for dense optical flow labels for training and significantly improve the generalization capability of the system in diverse and challenging environments. Our pose-only supervised method achieves competitive performance on standard datasets and greater robustness and generalization ability in extreme and unseen scenarios, even compared to dense optical flow-supervised state-of-the-art methods.
翻訳日:2024-04-09 20:00:13 公開日:2024-04-06
# 離散的決定による群集モデルキャリブレーションの自動勾配推定

Automatic Gradient Estimation for Calibrating Crowd Models with Discrete Decision Making ( http://arxiv.org/abs/2404.04678v1 )

ライセンス: Link先を確認
Philipp Andelfinger, Justin N. Kreikemeyer, (参考訳) 最近提案された勾配推定器は、自動微分(AD)だけではカバーされない応答面に離散的なジャンプを持つ確率的プログラム上の勾配降下を可能にする。 高速な局所探索を導くこれらの推定器の能力は特定の問題に対して示されてきたが、現実のアプリケーションに関係のあるモデルへの適用性はほとんど解明されていない。 提案手法は, 粒子群最適化などのメタヒューリスティックと類似性があり, 関数評価毎に異なる手法のキャリブレーションの進行に焦点をあてる。 本稿では,社会力モデルに基づく集団避難モデルの分別決定による校正について考察する。 シミュレーションの粗い応答面を捉えるための分岐プログラムのためのADベースの推定器の能力を検討した後、勾配勾配と2つのメタヒューリスティックスを用いてキャリブレーション問題に取り組む。 主な洞察として、私たちは 1)社会力モデルに固有の大規模なジャンプを無視することで、推定の忠実さが恩恵を受けること。 2) シミュレーション入力分布の調整によるキャリブレーションの共通問題は, 社会力計算におけるADの必要性を排除し, 勾配降下を緩和する。

Recently proposed gradient estimators enable gradient descent over stochastic programs with discrete jumps in the response surface, which are not covered by automatic differentiation (AD) alone. Although these estimators' capability to guide a swift local search has been shown for certain problems, their applicability to models relevant to real-world applications remains largely unexplored. As the gradients governing the choice in candidate solutions are calculated from sampled simulation trajectories, the optimization procedure bears similarities to metaheuristics such as particle swarm optimization, which puts the focus on the different methods' calibration progress per function evaluation. Here, we consider the calibration of force-based crowd evacuation models based on the popular Social Force model augmented by discrete decision making. After studying the ability of an AD-based estimator for branching programs to capture the simulation's rugged response surface, calibration problems are tackled using gradient descent and two metaheuristics. As our main insights, we find 1) that the estimation's fidelity benefits from disregarding jumps of large magnitude inherent to the Social Force model, and 2) that the common problem of calibration by adjusting a simulation input distribution obviates the need for AD across the Social Force calculations, allowing gradient descent to excel.
翻訳日:2024-04-09 20:00:13 公開日:2024-04-06
# 構成保守主義:オフライン強化学習におけるトランスダクティブアプローチ

Compositional Conservatism: A Transductive Approach in Offline Reinforcement Learning ( http://arxiv.org/abs/2404.04682v1 )

ライセンス: Link先を確認
Yeda Song, Dongwook Lee, Gunhee Kim, (参考訳) オフライン強化学習(RL)は、環境とのさらなる相互作用なしに過去の経験から最適な政策を学ぶための魅力的なフレームワークである。 それでも、オフラインRLは必然的に、ポリシー実行中に遭遇した状態やアクションがトレーニングデータセットの分布に存在しないような、分散シフトの問題に直面している。 共通の解決策は、不確実性や未知に対する保護のために、保守主義を政策や価値関数に組み込むことである。 本研究では,保守主義の同じ目的を達成することに注力する。 オフラインRLにおける共振共振器共振器共振器共振器(COCOA)を提案する。これは共振器共振器共振器共振器(Netanyahu et al , 2023)を用いて、入力変数(この場合の状態)をアンカーに分解し、元の入力と異なる。 我々のCOCOAは、学習された逆ダイナミクスモデルを活用し、ポリシーや値関数の合成入力空間における保守性を奨励することで、分配アンカーと相違点の両方を求める。 このような構成的保守主義は、オフラインRLにおける一般的な行動保守主義とは独立であり、無関係である。 我々は、COCOAを4つの最先端のオフラインRLアルゴリズムに適用し、それらをD4RLベンチマークで評価する。 コードはhttps://github.com/runamu/compositional-conservatismで公開されている。

Offline reinforcement learning (RL) is a compelling framework for learning optimal policies from past experiences without additional interaction with the environment. Nevertheless, offline RL inevitably faces the problem of distributional shifts, where the states and actions encountered during policy execution may not be in the training dataset distribution. A common solution involves incorporating conservatism into the policy or the value function to safeguard against uncertainties and unknowns. In this work, we focus on achieving the same objectives of conservatism but from a different perspective. We propose COmpositional COnservatism with Anchor-seeking (COCOA) for offline RL, an approach that pursues conservatism in a compositional manner on top of the transductive reparameterization (Netanyahu et al., 2023), which decomposes the input variable (the state in our case) into an anchor and its difference from the original input. Our COCOA seeks both in-distribution anchors and differences by utilizing the learned reverse dynamics model, encouraging conservatism in the compositional input space for the policy or value function. Such compositional conservatism is independent of and agnostic to the prevalent behavioral conservatism in offline RL. We apply COCOA to four state-of-the-art offline RL algorithms and evaluate them on the D4RL benchmark, where COCOA generally improves the performance of each algorithm. The code is available at https://github.com/runamu/compositional-conservatism.
翻訳日:2024-04-09 20:00:13 公開日:2024-04-06
# Google検索結果におけるアルゴリズムの誤用:米国オンライン選挙情報環境監査の証拠

Algorithmic Misjudgement in Google Search Results: Evidence from Auditing the US Online Electoral Information Environment ( http://arxiv.org/abs/2404.04684v1 )

ライセンス: Link先を確認
Brooke Perreault, Johanna Lee, Ropafadzo Shava, Eni Mustafaraj, (参考訳) Google検索は人々が政治に関する情報を求める重要な方法であり、Googleは「有権者が民主的プロセスを理解し、ナビゲートし、参加するのを助けるために、Google検索にタイムリーで権威のある情報を提供することが義務付けられている」と述べている。 本稿では,2022年10月から11月にかけて,米国中道選挙の選挙情報において,政府が保持するWebドメインがオンライン環境にどの程度表示されているのかを問う。 この比例平衡は、ほとんどの結果が少数の人気ドメインに属しているか、探索の場所に関して(71.18%の率で)誤用されているという事実を隠している。 我々は,選挙情報環境において,これらの機関が果たす重要な役割を解明することにより,非フェデラルウェブサイトの欠落や不正を,市民の害に寄与するアルゴリズム的誤判断の一形態とみなす。

Google Search is an important way that people seek information about politics, and Google states that it is ``committed to providing timely and authoritative information on Google Search to help voters understand, navigate, and participate in democratic processes''. In this paper, we interrogate the extent to which government-maintained web domains are represented in the online environment of electoral information of the 2022 US midterm elections, as captured through Google Search results in 3.45 million SERPs for 786 locations across the United States between October and November 2022. Although we find that almost 40% of organic results are contributed by the 40% of government domains, this proportional equilibrium hides the fact that most results either belong to a small number of popular domains or are mistargeted (at a rate of 71.18%) with respect to the location of the search. We consider the frequent omission and mistargeting of non-federal websites a form of algorithmic misjudgement that contributes to civic harm, by obscuring the important role that these institutions play in the election information environment.
翻訳日:2024-04-09 20:00:13 公開日:2024-04-06
# バングラデシュにおける乳がん分類の予測モデル : 説明可能なAIを用いた機械学習アプローチ

Predictive Modeling for Breast Cancer Classification in the Context of Bangladeshi Patients: A Supervised Machine Learning Approach with Explainable AI ( http://arxiv.org/abs/2404.04686v1 )

ライセンス: Link先を確認
Taminul Islam, Md. Alif Sheakh, Mst. Sazia Tahosin, Most. Hasna Hena, Shopnil Akash, Yousef A. Bin Jardan, Gezahign Fentahun Wondmie, Hiba-Allah Nafidi, Mohammed Bourhia, (参考訳) 近年、乳がんは急速に流行し、世界中で死亡率の高い原因の1つとなっている。 全てのがんの中でも最も多い。 この病気を手動で診断するにはかなりの時間と専門知識が必要である。 乳癌の検出は時間を要するプロセスであるため、マシンベースの予測を作成することにより、そのさらなる拡散を防ぐことができる。 機械学習と説明可能なAIは、正確な予測を提供するだけでなく、モデルがその決定にどう到達するかについての洞察を提供し、分類結果の理解と信頼性を支援するため、分類において不可欠である。 本研究では,プライマリデータセット(ダッカ医科大学病院500名)を用いて,5種類の機械学習手法の分類精度,精度,リコール,F-1スコアを評価し,比較した。 決定木、ランダムフォレスト、ロジスティック回帰、ナイーブベイズ、XGBoostを含む5つの異なる教師付き機械学習技術を用いて、データセット上で最適な結果が得られた。 さらに,モデルの予測を解釈し,各特徴がモデル出力に与える影響を理解するために,XGBoostモデルにSHAP解析を適用した。 我々は、複数のアルゴリズムがデータを分類した精度と、この分野の他の文献と対比した精度を比較した。 最終評価の結果,XGBoostの精度は97%であった。

Breast cancer has rapidly increased in prevalence in recent years, making it one of the leading causes of mortality worldwide. Among all cancers, it is by far the most common. Diagnosing this illness manually requires significant time and expertise. Since detecting breast cancer is a time-consuming process, preventing its further spread can be aided by creating machine-based forecasts. Machine learning and Explainable AI are crucial in classification as they not only provide accurate predictions but also offer insights into how the model arrives at its decisions, aiding in the understanding and trustworthiness of the classification results. In this study, we evaluate and compare the classification accuracy, precision, recall, and F-1 scores of five different machine learning methods using a primary dataset (500 patients from Dhaka Medical College Hospital). Five different supervised machine learning techniques, including decision tree, random forest, logistic regression, naive bayes, and XGBoost, have been used to achieve optimal results on our dataset. Additionally, this study applied SHAP analysis to the XGBoost model to interpret the model's predictions and understand the impact of each feature on the model's output. We compared the accuracy with which several algorithms classified the data, as well as contrasted with other literature in this field. After final evaluation, this study found that XGBoost achieved the best model accuracy, which is 97%.
翻訳日:2024-04-09 20:00:13 公開日:2024-04-06
# Z-Splat:Z-Axis Gaussian Splatting for Camera-Sonar Fusion

Z-Splat: Z-Axis Gaussian Splatting for Camera-Sonar Fusion ( http://arxiv.org/abs/2404.04687v1 )

ライセンス: Link先を確認
Ziyuan Qu, Omkar Vengurlekar, Mohamad Qadri, Kevin Zhang, Michael Kaess, Christopher Metzler, Suren Jayasuriya, Adithya Pediredla, (参考訳) 3Dシーンを再構成するためのコンピュータビジョンとグラフィックにおいて、微分可能な3D-ガウススプラッティング(GS)が顕著な技術として登場している。 GSは、様々な不透明度を持つ3Dガウスの集合としてシーンを表現し、様々な視点から捉えたシーン画像から得られる3Dガウスのパラメータを計算するために、解析的微分とともに計算効率の良いスプレイティング演算を用いる。 残念なことに、水中イメージング、建物内の部屋、自律ナビゲーションなど、現実の多くのシナリオでは、サラウンドビュー(360^{\circ}$ view)の画像の撮影は不可能か、現実的ではない。 これらの制限されたベースラインイメージングのシナリオでは、GSアルゴリズムはよく知られた「ミス・コーン」問題に悩まされ、深さ軸に沿った再構成が不十分になる。 本稿では, ソナーから得られた過渡的データを用いて, 奥行き軸に沿った高周波データをサンプリングすることにより, 行方不明なコーン問題に対処できることを実証する。 RGBカメラデータとソナーデータを同時に利用する融合アルゴリズムを提案する。 シミュレーション,エミュレーション,ハードウェア実験により,提案した融合アルゴリズムは,新しいビュー合成(PSNR 5dB改良)と3次元幾何再構成(チャンファー距離60%下)を著しく向上させることを示した。

Differentiable 3D-Gaussian splatting (GS) is emerging as a prominent technique in computer vision and graphics for reconstructing 3D scenes. GS represents a scene as a set of 3D Gaussians with varying opacities and employs a computationally efficient splatting operation along with analytical derivatives to compute the 3D Gaussian parameters given scene images captured from various viewpoints. Unfortunately, capturing surround view ($360^{\circ}$ viewpoint) images is impossible or impractical in many real-world imaging scenarios, including underwater imaging, rooms inside a building, and autonomous navigation. In these restricted baseline imaging scenarios, the GS algorithm suffers from a well-known 'missing cone' problem, which results in poor reconstruction along the depth axis. In this manuscript, we demonstrate that using transient data (from sonars) allows us to address the missing cone problem by sampling high-frequency data along the depth axis. We extend the Gaussian splatting algorithms for two commonly used sonars and propose fusion algorithms that simultaneously utilize RGB camera data and sonar data. Through simulations, emulations, and hardware experiments across various imaging scenarios, we show that the proposed fusion algorithms lead to significantly better novel view synthesis (5 dB improvement in PSNR) and 3D geometry reconstruction (60% lower Chamfer distance).
翻訳日:2024-04-09 20:00:13 公開日:2024-04-06
# Simulink-Stateflow モデルによるCPSコントローラの自動プログラム修復

Search-based Automated Program Repair of CPS Controllers Modeled in Simulink-Stateflow ( http://arxiv.org/abs/2404.04688v1 )

ライセンス: Link先を確認
Aitor Arrieta, Pablo Valle, Shaukat Ali, (参考訳) ステートフローモデルは、シミュリンクのCPS(Cyber-Physical Systems)の高レベル制御ロジックをモデル化するために広く使われている。 Simulinkモデルをテストするための多くのアプローチがあるが、障害が検出されると、それを修復するプロセスは手作業のままである。 このような手動のプロセスはソフトウェア開発のコストを増大させ、このコストを削減する新しい技術を開発する上で最重要となる。 自動プログラム修正(APR)技術は、パッチを自動生成することでバグを修正する時間を著しく短縮することができる。 しかし、現在のアプローチでは、CPSコンテキストに適用可能なスケーラビリティの問題に直面しています。 この問題に対処するため,我々は,ステートフローモデルを修正するために明確に設計されたFlowRepairという,自動検索ベースのアプローチを提案する。 FlowRepairの新規性は、(1)パッチ生成のグローバル検索とローカル検索を組み合わせた新しいアルゴリズム、(2)CPSの修復用に特別に設計された新しい修復目標(例えば、障害がアクティブな時間)の定義、(3)Stateflowモデルの自動修復のための突然変異演算子セットを含む。 本研究では,FlowRepairを3種類のケーススタディシステムと合計9つの障害状態流モデルを用いて評価した。 本研究では,(1)Flo wRepaircanが複数の障害のあるモデルを含む状態フローモデルのバグを修正すること,(2)FlowRepairはよく知られたCPSプログラム修復アプローチにインスパイアされたベースラインAPR手法に類似して機能することを提案する。 さらに、レプリケーションパッケージとライブレポジトリの両方を提供し、Simulinkでモデル化されたCPSのAPRに向かっている。

Stateflow models are widely used in the industry to model the high-level control logic of Cyber-Physical Systems (CPSs) in Simulink--the defacto CPS simulator. Many approaches exist to test Simulink models, but once a fault is detected, the process to repair it remains manual. Such a manual process increases the software development cost, making it paramount to develop novel techniques that reduce this cost. Automated Program Repair (APR) techniques can significantly reduce the time for fixing bugs by automatically generating patches. However, current approaches face scalability issues to be applicable in the CPS context. To deal with this problem, we propose an automated search-based approach called FlowRepair, explicitly designed to repair Stateflow models. The novelty of FlowRepair includes, (1) a new algorithm that combines global and local search for patch generation; (2) a definition of novel repair objectives (e.g., the time a fault remained active) specifically designed for repairing CPSs; and (3) a set of mutation operators to repair Stateflow models automatically. We evaluated FlowRepair with three different case study systems and a total of nine faulty stateflow models. Our experiments suggest that (1) Flo wRepaircan fix bugs in stateflow models, including models with multiple faults; (2) FlowRepair surpasses or performs similarly to a baseline APR technique inspired by a well-known CPS program repair approach. Besides, we provide both a replication package and a live repository, paving the way towards the APR of CPSs modeled in Simulink.
翻訳日:2024-04-09 20:00:13 公開日:2024-04-06
# LLMにおける信頼性の多重校正

Multicalibration for Confidence Scoring in LLMs ( http://arxiv.org/abs/2404.04689v1 )

ライセンス: Link先を確認
Gianluca Detommaso, Martin Bertran, Riccardo Fogliato, Aaron Roth, (参考訳) 本稿では,大規模言語モデル (LLM) が生成する出力に対して,解釈可能かつ信頼性の高い信頼スコアを得るために "multicalibration" を用いることを提案する。 マルチキャリブレーションは、余分にキャリブレーションを要求されるだけでなく、データの様々な交差グルーピングを同時に行う。 組込み空間内のクラスタリングと自己アノテーション(self-annotation)という2つの手法を用いて,そのプロンプトの正しさの確率と相関するプロンプト/コンプリートペアをグループ化する方法を示す。 また、過度に適合する傾向を減らし、性能改善を提供するマルチキャリブレーションアルゴリズムの新たな変種も開発している。 各種質問応答データセットとLCMを体系的にベンチマークすることで,従来の手法と比較して,キャリブレーションと精度の両方の細かな測定精度を大幅に向上する信頼性スコアが得られることを示す。

This paper proposes the use of "multicalibration" to yield interpretable and reliable confidence scores for outputs generated by large language models (LLMs). Multicalibration asks for calibration not just marginally, but simultaneously across various intersecting groupings of the data. We show how to form groupings for prompt/completion pairs that are correlated with the probability of correctness via two techniques: clustering within an embedding space, and "self-annotation" - querying the LLM by asking it various yes-or-no questions about the prompt. We also develop novel variants of multicalibration algorithms that offer performance improvements by reducing their tendency to overfit. Through systematic benchmarking across various question answering datasets and LLMs, we show how our techniques can yield confidence scores that provide substantial improvements in fine-grained measures of both calibration and accuracy compared to existing methods.
翻訳日:2024-04-09 20:00:13 公開日:2024-04-06
# ニューラルネットワークによる貧血の同定と分類:3つのモデルの比較分析

The Identification and Categorization of Anemia Through Artificial Neural Networks: A Comparative Analysis of Three Models ( http://arxiv.org/abs/2404.04690v1 )

ライセンス: Link先を確認
Mohammed A. A. Elmaleeh, (参考訳) 本稿では、貧血の診断と分類のための異なるニューラルネットワークベースの分類アルゴリズムを提案する。 本研究では、これらの分類器をフィードフォワードニューラルネットワーク(FFNN)、エルマンネットワーク、非線形自己回帰外生モデル(NARX)などの確立されたモデルと比較する。 臨床検査結果から得られた230例を対象に実験を行った。 提案したニューラルネットワークは、9つの入力(年齢、性別、RBC、HGB、HCT、MCV、MCH、MCHC、WBC)と1つの出力を含む。 多様な患者に対するシミュレーションの結果から,提案する人工ニューラルネットワークが疾患の存在を迅速かつ正確に検出できることが示されている。 その結果、貧血患者の報告を自動生成するために、ネットワークをシームレスに臨床実験室に組み込むことができ、また、提案手法は安価で、低コストでハードウェアに展開できる。

This paper presents different neural network-based classifier algorithms for diagnosing and classifying Anemia. The study compares these classifiers with established models such as Feed Forward Neural Network (FFNN), Elman network, and Non-linear Auto-Regressive Exogenous model (NARX). Experimental evaluations were conducted using data from clinical laboratory test results for 230 patients. The proposed neural network features nine inputs (age, gender, RBC, HGB, HCT, MCV, MCH, MCHC, WBCs) and one output. The simulation outcomes for diverse patients demonstrate that the suggested artificial neural network rapidly and accurately detects the presence of the disease. Consequently, the network could be seamlessly integrated into clinical laboratories for automatic generation of Anemia patients' reports Additionally, the suggested method is affordable and can be deployed on hardware at low costs.
翻訳日:2024-04-09 20:00:13 公開日:2024-04-06
# IRS支援型AoI-Aware Secure Multi-UAVシステム

Securing the Skies: An IRS-Assisted AoI-Aware Secure Multi-UAV System with Efficient Task Offloading ( http://arxiv.org/abs/2404.04692v1 )

ライセンス: Link先を確認
Poorvi Joshi, Alakesh Kalita, Mohan Gurusamy, (参考訳) 無人航空機(UAV)は農業、監視、物流など様々な分野において、5Gの進歩に支えられている。 しかし、既存の研究では、データの鮮度とセキュリティ上の懸念の両方に対処する包括的なアプローチが欠如している。 本稿では、最近のUAVネットワークにおける盗聴・妨害の状況において、データの鮮度とセキュリティの複雑な課題に対処する。 当社のフレームワークは,指数的AoI指標を取り入れ,盗難や妨害の脅威に対処するための秘密保持率を強調している。 本稿では,タスクオフロードプロセスの最適化を目的とした,トランスフォーマー強化型Deep Reinforcement Learning (DRL) アプローチを提案する。 既存のアルゴリズムとの比較分析により,UAVネットワーク管理の進歩が期待できることを示すとともに,提案手法の優位性を示す。

Unmanned Aerial Vehicles (UAVs) are integral in various sectors like agriculture, surveillance, and logistics, driven by advancements in 5G. However, existing research lacks a comprehensive approach addressing both data freshness and security concerns. In this paper, we address the intricate challenges of data freshness, and security, especially in the context of eavesdropping and jamming in modern UAV networks. Our framework incorporates exponential AoI metrics and emphasizes secrecy rate to tackle eavesdropping and jamming threats. We introduce a transformer-enhanced Deep Reinforcement Learning (DRL) approach to optimize task offloading processes. Comparative analysis with existing algorithms showcases the superiority of our scheme, indicating its promising advancements in UAV network management.
翻訳日:2024-04-09 20:00:13 公開日:2024-04-06
# OmniColor: 点雲のカラー化のためのLiDAR-360Camera Fusionのグローバルカメラポース最適化手法

OmniColor: A Global Camera Pose Optimization Approach of LiDAR-360Camera Fusion for Colorizing Point Clouds ( http://arxiv.org/abs/2404.04693v1 )

ライセンス: Link先を確認
Bonan Liu, Guoyang Zhao, Jianhao Jiao, Guang Cai, Chengyang Li, Handi Yin, Yuyang Wang, Ming Liu, Pan Hui, (参考訳) シンプルで効率的な3D表現としてのカラーポイントクラウドは、ロボットナビゲーションやシーン再構築など、さまざまな分野で多くの利点がある。 この表現は、カメラとLiDARに依存する3D再構成タスクで一般的に使用されている。 しかし、これらの2種類のセンサーからのデータを融合することは、多くの既存のフレームワークでは不十分であり、主に不正確なカメラのポーズのために不満足なマッピング結果をもたらす。 本稿では,独立系360度カメラを用いて点雲をカラー化するための,新規で効率的なアルゴリズムであるOmniColorを提案する。 LiDARをベースとした点雲と、初期粗いカメラポーズによるパノラマ画像の連続を考慮し、画像の幾何再構成へのマッピングのために、すべてのフレームのポーズを協調的に最適化することを目的とする。 当社のパイプラインは、機能抽出やマッチングプロセスを必要としない、既定の方法で動作します。 代わりに、LiDAR写像の測光一貫性を直接最大化することで最適なポーズを求める。 実験では,全方位画像の難解な視覚歪みを克服し,360度カメラの広視野視野(FOV)の利点を大いに生かし,精度と安定性で様々なシナリオを再構築できることを示した。 コードはhttps://github.com/liubonan123/OmniColor/でリリースされる。

A Colored point cloud, as a simple and efficient 3D representation, has many advantages in various fields, including robotic navigation and scene reconstruction. This representation is now commonly used in 3D reconstruction tasks relying on cameras and LiDARs. However, fusing data from these two types of sensors is poorly performed in many existing frameworks, leading to unsatisfactory mapping results, mainly due to inaccurate camera poses. This paper presents OmniColor, a novel and efficient algorithm to colorize point clouds using an independent 360-degree camera. Given a LiDAR-based point cloud and a sequence of panorama images with initial coarse camera poses, our objective is to jointly optimize the poses of all frames for mapping images onto geometric reconstructions. Our pipeline works in an off-the-shelf manner that does not require any feature extraction or matching process. Instead, we find optimal poses by directly maximizing the photometric consistency of LiDAR maps. In experiments, we show that our method can overcome the severe visual distortion of omnidirectional images and greatly benefit from the wide field of view (FOV) of 360-degree cameras to reconstruct various scenarios with accuracy and stability. The code will be released at https://github.com/liubonan123/OmniColor/.
翻訳日:2024-04-09 20:00:13 公開日:2024-04-06
# 差分プライバシーと差分プライベート機械学習の進歩

Advances in Differential Privacy and Differentially Private Machine Learning ( http://arxiv.org/abs/2404.04706v1 )

ライセンス: Link先を確認
Saswat Das, Subhankar Mishra, (参考訳) 近年、差分プライバシー(DP)とその様々な応用に関する研究が爆発的に活発化しており、差分プライバシーにおける新しい変種や会計技術から、差分プライベート機械学習(DPML)の繁栄分野から、国勢調査局などの様々な企業や組織による新しい実装に至るまで、様々な分野が研究されている。 最近の調査では、データパブリッシング、特定の機械学習タスク、非構造化データの分析、ロケーションプライバシなど、特定のコンテキストにおける差分プライバシーの適用に焦点を当てている。 この研究は、新しいDP変種であるvizとともに、微分プライバシー理論の最近の発展を主に論じる調査のギャップを埋めようとしている。 Renyi DP と Concentated DP 、新しいメカニズムと技術、および微分プライベート機械学習における理論的発展について。 さらに,プライバシ保護機械学習の実践と,DPの実践的実装について検討した。

There has been an explosion of research on differential privacy (DP) and its various applications in recent years, ranging from novel variants and accounting techniques in differential privacy to the thriving field of differentially private machine learning (DPML) to newer implementations in practice, like those by various companies and organisations such as census bureaus. Most recent surveys focus on the applications of differential privacy in particular contexts like data publishing, specific machine learning tasks, analysis of unstructured data, location privacy, etc. This work thus seeks to fill the gap for a survey that primarily discusses recent developments in the theory of differential privacy along with newer DP variants, viz. Renyi DP and Concentrated DP, novel mechanisms and techniques, and the theoretical developments in differentially private machine learning in proper detail. In addition, this survey discusses its applications to privacy-preserving machine learning in practice and a few practical implementations of DP.
翻訳日:2024-04-09 20:00:13 公開日:2024-04-06
# スケールフリーネットワークの幾何学によるインド株式市場の解説

Explaining Indian Stock Market through Geometry of Scale free Networks ( http://arxiv.org/abs/2404.04710v1 )

ライセンス: Link先を確認
Pawanesh Yadav, Charu Sharma, Niteesh Sahni, (参考訳) 本稿では,機械学習技術を用いて,ハイパーボリック空間にネットワークを埋め込む手法を用いて,インド株式市場の分析を行う。 我々は4つの点で新規性を主張している。 まず、双曲星団がユークリッド星団よりも近いトポロジカルネットワーク群に類似していることが示される。 第2に、組込みネットワークに対応する双曲的距離と双曲的最短経路距離の統計的解析により、市場の安定性とボラティリティの期間を明確に区別することができる。 第3に,組込みネットワークのモジュール性を利用することで,市場の変化を早期に発見できることを実証する。 最後に、合体埋め込みは特定の市場セクターを分離し、その自然なクラスタリング能力を強調することができる。

This paper presents an analysis of the Indian stock market using a method based on embedding the network in a hyperbolic space using Machine learning techniques. We claim novelty on four counts. First, it is demonstrated that the hyperbolic clusters resemble the topological network communities more closely than the Euclidean clusters. Second, we are able to clearly distinguish between periods of market stability and volatility through a statistical analysis of hyperbolic distance and hyperbolic shortest path distance corresponding to the embedded network. Third, we demonstrate that using the modularity of the embedded network significant market changes can be spotted early. Lastly, the coalescent embedding is able to segregate the certain market sectors thereby underscoring its natural clustering ability.
翻訳日:2024-04-09 20:00:13 公開日:2024-04-06
# オフ・ポリティィ政策評価手法におけるデータ・ポジショニング攻撃

Data Poisoning Attacks on Off-Policy Policy Evaluation Methods ( http://arxiv.org/abs/2404.04714v1 )

ライセンス: Link先を確認
Elita Lobo, Harvineet Singh, Marek Petrik, Cynthia Rudin, Himabindu Lakkaraju, (参考訳) オフ・ポリティ・アセスメント(OPE)手法は、医療などの高額な領域において、探索が不可能、非倫理的、あるいは高価である場合において、政策を評価するための重要なツールである。 しかし、データ品質に対する敵対的脅威の下で、そのような手法が信頼できる範囲は、明らかにされていない。 本研究は,OPE手法の差分摂動に対する感度を調査するための最初の試みである。 我々は、ロバストな統計から影響関数を活用する汎用データ中毒攻撃フレームワークを設計し、ポリシー値推定における誤差を最大化する摂動を慎重に構築する。 我々は、複数のヘルスケアおよびコントロールデータセットで広範な実験を行う。 以上の結果から,多くの既存OPE法は, 逆方向の摂動であっても, データ中毒攻撃を受ける場合, 誤差が大きい値の推定値を生成する傾向が示唆された。 これらの結果から, OPE法で導出された政策値の信頼性を疑問視し, 統計的にデータ中毒攻撃に対して堅牢なOPE法の開発の必要性を示唆した。

Off-policy Evaluation (OPE) methods are a crucial tool for evaluating policies in high-stakes domains such as healthcare, where exploration is often infeasible, unethical, or expensive. However, the extent to which such methods can be trusted under adversarial threats to data quality is largely unexplored. In this work, we make the first attempt at investigating the sensitivity of OPE methods to marginal adversarial perturbations to the data. We design a generic data poisoning attack framework leveraging influence functions from robust statistics to carefully construct perturbations that maximize error in the policy value estimates. We carry out extensive experimentation with multiple healthcare and control datasets. Our results demonstrate that many existing OPE methods are highly prone to generating value estimates with large errors when subject to data poisoning attacks, even for small adversarial perturbations. These findings question the reliability of policy values derived using OPE methods and motivate the need for developing OPE methods that are statistically robust to train-time data poisoning attacks.
翻訳日:2024-04-09 20:00:13 公開日:2024-04-06
# 循環動態評価のための解釈型マルチモーダルラーニング

Interpretable Multimodal Learning for Cardiovascular Hemodynamics Assessment ( http://arxiv.org/abs/2404.04718v1 )

ライセンス: Link先を確認
Prasun C Tripathi, Sina Tabakhi, Mohammod N I Suvon, Lawrence Schöb, Samer Alabed, Andrew J Swift, Shuo Zhou, Haiping Lu, (参考訳) 肺動脈圧 (PAWP) は心不全を検出するための重要な循環動態マーカーである。 臨床的には、右心カテーテル化は心臓血行動態を評価するための金の基準と考えられているが、高リスク患者を検査するためには非侵襲的な方法がしばしば必要である。 本稿では,PAWPマーカーを予測するマルチモーダル学習パイプラインを提案する。 心臓磁気共鳴画像(CMR)スキャン(短軸・四角)と電子健康記録(EHR)の相補的情報を利用する。 テンソル学習を用いてCMRスキャンから時空間的特徴を抽出する。 本稿では,グラフノードとして対象をモデル化し,アテンション機構を用いて特徴関係をグラフエッジとしてモデル化する,予測のための重要なEHR機能を選択するグラフアテンションネットワークを提案する。 我々は、早期、中期、後期、ハイブリッドの4つの機能融合戦略を設計する。 線形分類器と線形融合戦略により、パイプラインは解釈可能である。 当社のパイプラインをASPIREレジストリから2,641ドルの大規模データセットで検証しています。 最先端手法との比較研究により,パイプラインの優位性が確認された。 決定曲線解析により、パイプラインが多くの個体群をスクリーニングするために適用可能であることがさらに検証される。 コードはhttps://github.com/prasunc/hemodynamics.comで公開されている。

Pulmonary Arterial Wedge Pressure (PAWP) is an essential cardiovascular hemodynamics marker to detect heart failure. In clinical practice, Right Heart Catheterization is considered a gold standard for assessing cardiac hemodynamics while non-invasive methods are often needed to screen high-risk patients from a large population. In this paper, we propose a multimodal learning pipeline to predict PAWP marker. We utilize complementary information from Cardiac Magnetic Resonance Imaging (CMR) scans (short-axis and four-chamber) and Electronic Health Records (EHRs). We extract spatio-temporal features from CMR scans using tensor-based learning. We propose a graph attention network to select important EHR features for prediction, where we model subjects as graph nodes and feature relationships as graph edges using the attention mechanism. We design four feature fusion strategies: early, intermediate, late, and hybrid fusion. With a linear classifier and linear fusion strategies, our pipeline is interpretable. We validate our pipeline on a large dataset of $2,641$ subjects from our ASPIRE registry. The comparative study against state-of-the-art methods confirms the superiority of our pipeline. The decision curve analysis further validates that our pipeline can be applied to screen a large population. The code is available at https://github.com/prasunc/hemodynamics.
翻訳日:2024-04-09 19:50:28 公開日:2024-04-06
# ポイントクラウド映像表現学習のためのPDEモデリングの検討

On Exploring PDE Modeling for Point Cloud Video Representation Learning ( http://arxiv.org/abs/2404.04720v1 )

ライセンス: Link先を確認
Zhuoxu Huang, Zhenkun Fan, Tao Xu, Jungong Han, (参考訳) 複雑な構造と秩序のない空間配置のため、ポイントクラウドビデオ表現学習は困難である。 従来の手法はフレーム・ツー・フレームの相関やポイント・ワイド対応追跡に苦慮している。 近年、偏微分方程式(PDE)は、特定の制約の中で空間的時間的データ情報を均一に解く新しい視点を提供する。 有形点対応の追跡は依然として困難であるが,PDE解決問題としてポイントクラウド映像表現学習の形式化を提案する。 PDEは時間とともに空間形状の変形を解くために使用される流体解析にインスパイアされ、時間的情報によって影響を受ける空間点の変動を解決するためにPDEを用いている。 空間的時間的相関をモデル化することにより、時間的特徴と空間的変動を規則化し、ポイントクラウドビデオにおける表現学習を強化することを目指す。 我々は、PointNetライクなエンコーダとPDE解決モジュールで構成されるMotion PointNetを紹介する。 当初,空間変動の初期状態をモデル化する軽量で効果的なエンコーダを構築した。 その後,PDE分解モジュールをパラメータ化潜在空間で開発し,ポイントクラウドビデオに固有の時空間相関に対処する。 PDEの解法は、特徴分布の変換において重要なコントラスト学習構造により導かれ、洗練され、ポイントクラウドビデオデータ内の特徴表現が最適化される。 注目すべきは、Motion PointNetがMSRAction-3Dデータセットで97.52%という驚くべき精度を達成したことです。

Point cloud video representation learning is challenging due to complex structures and unordered spatial arrangement. Traditional methods struggle with frame-to-frame correlations and point-wise correspondence tracking. Recently, partial differential equations (PDE) have provided a new perspective in uniformly solving spatial-temporal data information within certain constraints. While tracking tangible point correspondence remains challenging, we propose to formalize point cloud video representation learning as a PDE-solving problem. Inspired by fluid analysis, where PDEs are used to solve the deformation of spatial shape over time, we employ PDE to solve the variations of spatial points affected by temporal information. By modeling spatial-temporal correlations, we aim to regularize spatial variations with temporal features, thereby enhancing representation learning in point cloud videos. We introduce Motion PointNet composed of a PointNet-like encoder and a PDE-solving module. Initially, we construct a lightweight yet effective encoder to model an initial state of the spatial variations. Subsequently, we develop our PDE-solving module in a parameterized latent space, tailored to address the spatio-temporal correlations inherent in point cloud video. The process of solving PDE is guided and refined by a contrastive learning structure, which is pivotal in reshaping the feature distribution, thereby optimizing the feature representation within point cloud video data. Remarkably, our Motion PointNet achieves an impressive accuracy of 97.52% on the MSRAction-3D dataset, surpassing the current state-of-the-art in all aspects while consuming minimal resources (only 0.72M parameters and 0.82G FLOPs).
翻訳日:2024-04-09 19:50:28 公開日:2024-04-06
# PoLLMgraph: 状態遷移ダイナミクスによる大規模言語モデルにおける幻覚の解明

PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics ( http://arxiv.org/abs/2404.04722v1 )

ライセンス: Link先を確認
Derui Zhu, Dingfan Chen, Qing Li, Zongxiong Chen, Lei Ma, Jens Grossklags, Mario Fritz, (参考訳) 近年の大規模言語モデル(LLM)の飛躍的な進歩にもかかわらず、その実践的展開において特に急激な課題は幻覚現象である。 そこで本研究では,LLMのポリグラフであるPoLLMgraphをモデルベースで効率的なホワイトボックス検出と予測手法として提案する。 PoLLMgraphは、ブラックボックスの評価を通じてこのような課題に対処することに集中する既存の研究機関とは明らかに異なっている。 特に,LLMの内部状態遷移ダイナミクスを抽出可能な確率モデルを用いて解析することにより,幻覚を効果的に検出できることを実証する。 TruthfulQAのような一般的なベンチマークデータセット上で、AUC-ROCが20%以上改善されていることが証明された。 我々の研究は、LLMのモデルベースのホワイトボックス分析の新しい手法を開拓し、LLMの振る舞いの複雑なダイナミクスをさらに探求し、理解し、洗練する研究コミュニティを動機付けている。

Despite tremendous advancements in large language models (LLMs) over recent years, a notably urgent challenge for their practical deployment is the phenomenon of hallucination, where the model fabricates facts and produces non-factual statements. In response, we propose PoLLMgraph, a Polygraph for LLMs, as an effective model-based white-box detection and forecasting approach. PoLLMgraph distinctly differs from the large body of existing research that concentrates on addressing such challenges through black-box evaluations. In particular, we demonstrate that hallucination can be effectively detected by analyzing the LLM's internal state transition dynamics during generation via tractable probabilistic models. Experimental results on various open-source LLMs confirm the efficacy of PoLLMgraph, outperforming state-of-the-art methods by a considerable margin, evidenced by over 20% improvement in AUC-ROC on common benchmarking datasets like TruthfulQA. Our work paves a new way for model-based white-box analysis of LLMs, motivating the research community to further explore, understand, and refine the intricate dynamics of LLM behaviors.
翻訳日:2024-04-09 19:50:28 公開日:2024-04-06
# 我々はトップを狙う必要がある:サイバーと情報セキュリティの意思決定者に対するサイバーセキュリティの認識に関連する要因

We need to aim at the top: Factors associated with cybersecurity awareness of cyber and information security decision-makers ( http://arxiv.org/abs/2404.04725v1 )

ライセンス: Link先を確認
Simon Vrhovec, Blaž Markelj, (参考訳) サイバー攻撃は組織に重大なビジネスリスクをもたらす。 組織サイバーセキュリティに対して人々が大きなリスクを負う理由とそれに対する対処方法に注目する文献は豊富にあるが、組織サイバーセキュリティのセットアップと維持を担当する人々であるサイバーおよび情報セキュリティの意思決定者について驚くほど少ない。 本稿では,サイバーおよび情報セキュリティの意思決定者に対するサイバーセキュリティ意識を調査し,それに関連する要因について検討する。 スロベニアのサイバー・情報セキュリティ意思決定者(N=283)を対象にオンライン調査を行い,(1)彼らのサイバー・セキュリティ意識が組織におけるアンチマルウェア・ソリューションの採用と関係しているかどうか,(2)組織的要因と個人的特性がサイバー・セキュリティ意識と関連しているかを調査した。 本研究は, 意思決定における個人にとって, 既知の脅威や解決策に対する意識が極めて低いことを示唆している。 また、脅威と解決策がサイバーおよび情報セキュリティの意思決定者で、最も意識していないものについての洞察も提供する。 我々は、特定の脅威や解決策に対する認識が、EDR/XDR機能を備えた高度なアンチマルウェアソリューションの採用と、SOCの採用に肯定的な関係があることを発見した。 さらに,サイバーや情報セキュリティの意思決定者に対するサイバーセキュリティ意識に関連する重要な組織的要因(組織の役割タイプ)と個人的特徴(性別,年齢,情報セキュリティの経験,ITの経験)を明らかにした。 組織規模と正式な教育は重要ではなかった。 これらの結果は、これらの重要な要因に基づいて、サイバーおよび情報セキュリティ決定者のグループのニーズに合わせて、ターゲットとなるサイバーセキュリティトレーニングに活用できる洞察を提供する。

Cyberattacks pose a significant business risk to organizations. Although there is ample literature focusing on why people pose a major risk to organizational cybersecurity and how to deal with it, there is surprisingly little we know about cyber and information security decision-makers who are essentially the people in charge of setting up and maintaining organizational cybersecurity. In this paper, we study cybersecurity awareness of cyber and information security decision-makers, and investigate factors associated with it. We conducted an online survey among Slovenian cyber and information security decision-makers (N=283) to (1) determine whether their cybersecurity awareness is associated with adoption of antimalware solutions in their organizations, and (2) explore which organizational factors and personal characteristics are associated with their cybersecurity awareness. Our findings indicate that awareness of well-known threats and solutions seems to be quite low for individuals in decision-making roles. They also provide insights into which threats and solutions are cyber and information security decision-makers the least aware of. We uncovered that awareness of certain threats and solutions is positively associated with either adoption of advanced antimalware solutions with EDR/XDR capabilities or adoption of SOC. Additionally, we identified significant organizational factors (organizational role type) and personal characteristics (gender, age, experience with information security and experience with IT) related to cybersecurity awareness of cyber and information security decision-makers. Organization size and formal education were not significant. These results offer insights that can be leveraged in targeted cybersecurity training tailored to the needs of groups of cyber and information security decision-makers based on these key factors.
翻訳日:2024-04-09 19:50:28 公開日:2024-04-06
# ヒント世代研究の景観を旅する:過去から未来へ

Navigating the Landscape of Hint Generation Research: From the Past to the Future ( http://arxiv.org/abs/2404.04728v1 )

ライセンス: Link先を確認
Anubhav Jangra, Jamshid Mozafari, Adam Jatowt, Smaranda Muresan, (参考訳) デジタル教育は、新型コロナウイルス(COVID-19)のパンデミック以降、過去10年間で人気を博している。 ユーザとの推論とコミュニケーションのための大規模言語モデルの能力向上により、自己学習を容易にするインテリジェントな学習システム(ITS)を構想するのはそれほど遠くない。 このビジョンを達成するための重要な要素の1つは、学習プロセスの足場となるヒントを通じて、正確で効果的なフィードバックを提供する能力である。 本稿では,学習と認知科学のギャップを埋めることを目的としたヒント生成の先行研究と,AIと自然言語処理の研究を包括的に検討する。 そこで,本研究では,ヒント生成タスクの形式的定義を提案し,オープン課題,今後の方向性,倫理的考察を含む形式的定義に沿った効果的なヒント生成システム構築のロードマップについて議論する。

Digital education has gained popularity in the last decade, especially after the COVID-19 pandemic. With the improving capabilities of large language models to reason and communicate with users, envisioning intelligent tutoring systems (ITSs) that can facilitate self-learning is not very far-fetched. One integral component to fulfill this vision is the ability to give accurate and effective feedback via hints to scaffold the learning process. In this survey article, we present a comprehensive review of prior research on hint generation, aiming to bridge the gap between research in education and cognitive science, and research in AI and Natural Language Processing. Informed by our findings, we propose a formal definition of the hint generation task, and discuss the roadmap of building an effective hint generation system aligned with the formal definition, including open challenges, future directions and ethical considerations.
翻訳日:2024-04-09 19:50:28 公開日:2024-04-06
# 低炭素運転証明ブロックチェーンを目指して

Towards a low carbon proof-of-work blockchain ( http://arxiv.org/abs/2404.04729v1 )

ライセンス: Link先を確認
Agron Gemajli, Shivam Patel, Phillip G. Bradford, (参考訳) Proof of Work(PoW)ブロックチェーンは多くのエネルギーを消費します。 Proof-of-workアルゴリズムは設計コストが高く、ブロックチェーンの計算にのみ使用されることが多い。 ある意味では、炭素系および非炭素系地域電力は実現可能である。 したがって、炭素と非炭素の電力の混合が重要な役割を果たしている。 したがって、一般にPoWアルゴリズムは、ブロックチェーンを計算するための大きなCO$2$フットプリントを持つ。 技術実証は、ハッシュキャッシュや他のPoWメソッドを宝くじとPoVMエミュレーションで置き換えるためのものである。 PoVMエミュレーション(PoVM emulation)は、特定期間のVM(仮想マシン)提供と引き換えに、自律的なブロックチェーンマイナが抽選券を受け取る、PoWの形式である。 これらのVMはジョブキューからジョブを取得する。 自律的なPoVMの管理と保証は、期待通りに適切に設定され、実行されているので、完全な実用的なシステムにはいくつかのギャップがあります。 これらのギャップについて論じる。 私たちのシステムは、他の多くのブロックチェーンシステムと似ています。 これらのシステムを短時間で調査する。 本論文は, 当社の技術実証とともに, 上級設計プロジェクトとして実施した。

Proof of Work (PoW) blockchains burn a lot of energy. Proof-of-work algorithms are expensive by design and often only serve to compute blockchains. In some sense, carbon-based and non-carbon based regional electric power is fungible. So the total carbon and non-carbon electric power mix plays a role. Thus, generally PoW algorithms have large CO$_2$ footprints solely for computing blockchains. A proof of technology is described towards replacing hashcash or other PoW methods with a lottery and proof-of-VM (PoVM) emulation. PoVM emulation is a form of PoW where an autonomous blockchain miner gets a lottery ticket in exchange for providing a VM (virtual Machine) for a specified period. These VMs get their jobs from a job queue. Managing and ensuring, by concensus, that autonomous PoVMs are properly configured and running as expected gives several gaps for a complete practical system. These gaps are discussed. Our system is similar to a number of other blockchain systems. We briefly survey these systems. This paper along with our proof of technology was done as a senior design project.
翻訳日:2024-04-09 19:50:28 公開日:2024-04-06
# SAT-DIFF:SATソルビングを用いたツリーディフティングフレームワーク

SAT-DIFF: A Tree Diffing Framework Using SAT Solving ( http://arxiv.org/abs/2404.04731v1 )

ライセンス: Link先を確認
Chuqin Geng, Haolin Ye, Yihan Zhang, Brigitte Pientka, Xujie Si, (参考訳) 木構造データ間のコンピューティングの違いは、ソフトウェア分析において重要な問題であるが難しい問題である。 本稿では,構造微分問題をMaxSAT問題に再構成する,SatDiffと呼ばれる新しい木回折手法を提案する。 ソースツリーからターゲットツリーへの変換をエンコードすることで、SatDiffは正式な保証付きで正しい、最小限の、タイプセーフな低レベルの編集スクリプトを生成する。 次に、適切なトポロジ的順序で効果的に低レベル編集をマージすることで、簡潔な高レベル編集スクリプトを合成する。 実験の結果、SatDiffは、合理的なランタイムを維持しながら簡潔さの点で、既存のヒューリスティックなアプローチよりも優れていることが示された。

Computing differences between tree-structured data is a critical but challenging problem in software analysis. In this paper, we propose a novel tree diffing approach called SatDiff, which reformulates the structural diffing problem into a MaxSAT problem. By encoding the necessary transformations from the source tree to the target tree, SatDiff generates correct, minimal, and type safe low-level edit scripts with formal guarantees. We then synthesize concise high-level edit scripts by effectively merging low-level edits in the appropriate topological order. Our empirical results demonstrate that SatDiff outperforms existing heuristic-based approaches by a significant margin in terms of conciseness while maintaining a reasonable runtime.
翻訳日:2024-04-09 19:50:28 公開日:2024-04-06
# 畳み込みニューラルネットワークのための一般化エントロピースカラー化に向けて

Towards Generalized Entropic Sparsification for Convolutional Neural Networks ( http://arxiv.org/abs/2404.04734v1 )

ライセンス: Link先を確認
Tin Barisin, Illia Horenko, (参考訳) 畳み込みニューラルネットワーク(CNN)は過度にパラメータ化されていると報告されている。 最適(最小)かつ十分なアーキテクチャの探索は、ネットワーク構成の可能なハイパーパラメータ空間が広大なため、NPハード問題である。 本稿では,計算可能エントロピー緩和を目的とした数学的アイデアに基づく層間データ駆動プルーニング手法を提案する。 スパースサブネットワークは、ネットワークエントロピー最小化をスペーサ性制約として使用した、事前訓練された(フル)CNNから得られる。 これにより、サブ線形スケーリングコストで数値的にスケーラブルなアルゴリズムをデプロイできる。 この方法はいくつかのベンチマーク(アーキテクチャ)で検証される。 (i)間隔55%-84%、精度0.1%-0.5%のMNIST(LeNet) (ii) CIFAR-10 (VGG-16, ResNet18) は73-89%, 精度は0.1%-0.5%であった。

Convolutional neural networks (CNNs) are reported to be overparametrized. The search for optimal (minimal) and sufficient architecture is an NP-hard problem as the hyperparameter space for possible network configurations is vast. Here, we introduce a layer-by-layer data-driven pruning method based on the mathematical idea aiming at a computationally-scalable entropic relaxation of the pruning problem. The sparse subnetwork is found from the pre-trained (full) CNN using the network entropy minimization as a sparsity constraint. This allows deploying a numerically scalable algorithm with a sublinear scaling cost. The method is validated on several benchmarks (architectures): (i) MNIST (LeNet) with sparsity 55%-84% and loss in accuracy 0.1%-0.5%, and (ii) CIFAR-10 (VGG-16, ResNet18) with sparsity 73-89% and loss in accuracy 0.1%-0.5%.
翻訳日:2024-04-09 19:50:28 公開日:2024-04-06
# MACM:複雑数理問題の解法における条件マイニングのためのマルチエージェントシステムの利用

MACM: Utilizing a Multi-Agent System for Condition Mining in Solving Complex Mathematical Problems ( http://arxiv.org/abs/2404.04735v1 )

ライセンス: Link先を確認
Bin Lei, (参考訳) GPT-4のような大規模言語モデルの最近の進歩は、標準クエリの処理において顕著な能力を示している。 これらの進歩にもかかわらず、それらの性能は複雑で多段階の論理的推論を必要とする数学的な問題において著しく低下する。 彼らの推論能力を高めるために、現在の研究は、思考のツリーや思考のグラフといった方法論によって実証された「textit{prompting engineering}」へと発展してきた。 それでも、既存のアプローチには2つの大きな制限がある。 第一に、複雑な数学的問題に対処するそれらの効果は、幾らか制約されている。 第二に、個々の問題に対して異なるプロンプトを設計する必要性は、その一般化可能性を損なう。 これらの制約に対応するために、条件マイニングのための \textit{Multi-Agent System (\textbf{MACM}) プロンプト法を提案する。 複雑な数学的問題を解くだけでなく、様々な数学的文脈にまたがる強力な一般化能力を示す。 MACMの助けを借りて、GPT-4 TurboのMATHデータセットにおける最も難しい5つの数学的問題に対する精度は、$\mathbf{54.68\%} \text{to } \mathbf{76.73\%}$から上昇する。 コードは \url{https://github.com/bin123apple/MACM} で入手できる。

Recent advancements in large language models, such as GPT-4, have demonstrated remarkable capabilities in processing standard queries. Despite these advancements, their performance substantially declines in \textbf{advanced mathematical problems requiring complex, multi-step logical reasoning}. To enhance their inferential capabilities, current research has delved into \textit{prompting engineering}, exemplified by methodologies such as the Tree of Thought and Graph of Thought. Nonetheless, these existing approaches encounter two significant limitations. Firstly, their effectiveness in tackling complex mathematical problems is somewhat constrained. Secondly, the necessity to design distinct prompts for individual problems hampers their generalizability. In response to these limitations, this paper introduces the \textit{Multi-Agent System for conditional Mining} (\textbf{MACM}) prompting method. It not only resolves intricate mathematical problems but also demonstrates strong generalization capabilities across various mathematical contexts. With the assistance of MACM, the accuracy of GPT-4 Turbo on the most challenging level five mathematical problems in the MATH dataset increase from $\mathbf{54.68\%} \text{ to } \mathbf{76.73\%}$. The code is available in \url{https://github.com/bin123apple/MACM}.
翻訳日:2024-04-09 19:50:28 公開日:2024-04-06
# ProtoAL:医療画像のプロトタイプによるDeep Active Learningの解釈

ProtoAL: Interpretable Deep Active Learning with prototypes for medical imaging ( http://arxiv.org/abs/2404.04736v1 )

ライセンス: Link先を確認
Iury B. de A. Santos, André C. P. L. F. de Carvalho, (参考訳) 医療画像分野におけるDeep Learningアルゴリズムの採用は、AIベースのコンピュータ支援診断(AI-CAD)ソリューションを前進させる可能性の高い研究分野である。 しかしながら、現在のソリューションは、解釈可能性の欠如と高いデータ要求のため、課題に直面しており、これらの問題に対処するための最近の取り組みが進められている。 本研究では,解釈可能なDLモデルをDeep Active Learning(DAL)フレームワークに統合するProtoAL手法を提案する。 本手法は, 医用画像のコンテキストに着目し, プロトタイプに基づく本質的に解釈可能なモデルを活用することによって, 両課題に対処することを目的とする。 我々は,Messidorデータセット上でProtoALを評価し,精度-リコール曲線0.79の領域を実現するとともに,利用可能なラベル付きデータの76.54\%しか利用していない。 これらの能力は、医療分野におけるDLモデルの実用性を高め、ドメインエキスパートの信頼度校正の手段と、しばしば見られるデータ不足の文脈で学ぶための適切なソリューションを提供する。

The adoption of Deep Learning algorithms in the medical imaging field is a prominent area of research, with high potential for advancing AI-based Computer-aided diagnosis (AI-CAD) solutions. However, current solutions face challenges due to a lack of interpretability features and high data demands, prompting recent efforts to address these issues. In this study, we propose the ProtoAL method, where we integrate an interpretable DL model into the Deep Active Learning (DAL) framework. This approach aims to address both challenges by focusing on the medical imaging context and utilizing an inherently interpretable model based on prototypes. We evaluated ProtoAL on the Messidor dataset, achieving an area under the precision-recall curve of 0.79 while utilizing only 76.54\% of the available labeled data. These capabilities can enhances the practical usability of a DL model in the medical field, providing a means of trust calibration in domain experts and a suitable solution for learning in the data scarcity context often found.
翻訳日:2024-04-09 19:50:28 公開日:2024-04-06
# BARMPy: Bayesian Additive Regression Models Python Package

BARMPy: Bayesian Additive Regression Models Python Package ( http://arxiv.org/abs/2404.04738v1 )

ライセンス: Link先を確認
Danielle Van Boxel, (参考訳) 一般的な機械学習実践者のために,Bayesian Additive Regression Networks (BARN) を Python パッケージである \texttt{barmpy} として利用可能にしています。 私たちのオブジェクト指向設計はSciKit-Learnと互換性があり、クロスバリデーションのようなツールの使用を可能にします。 学習の容易化のために、ドキュメント内の参照情報を拡張するための補助チュートリアルを作成します。 興味のあるユーザは、公式のPyPiリポジトリから‘texttt{pip install barmpy}’を利用できる。 \texttt{barmpy} は一般的な Bayesian Additive Regression Models のベースラインPythonライブラリとしても機能する。

We make Bayesian Additive Regression Networks (BARN) available as a Python package, \texttt{barmpy}, with documentation at \url{https://dvbuntu.github.io/barmpy/} for general machine learning practitioners. Our object-oriented design is compatible with SciKit-Learn, allowing usage of their tools like cross-validation. To ease learning to use \texttt{barmpy}, we produce a companion tutorial that expands on reference information in the documentation. Any interested user can \texttt{pip install barmpy} from the official PyPi repository. \texttt{barmpy} also serves as a baseline Python library for generic Bayesian Additive Regression Models.
翻訳日:2024-04-09 19:50:28 公開日:2024-04-06
# 第5世代IMC: 利益・人・惑星の範囲を広げる

Fifth Generation IMC: Expanding the scope to Profit, People, and the Planet ( http://arxiv.org/abs/2404.04740v1 )

ライセンス: Link先を確認
Stewart Pearson, Edward Malthouse, (参考訳) 本論では,次世代統合マーケティングコミュニケーションの展開範囲を概説する。 この進化に繋がる重要な市場勢力を特定し、統合マーケティングコミュニケーション(IMC)の現在とこれからの展開の軌跡を説明する。 中心的なシフトは、主に1人の利害関係者から、人(雇用と社会)、惑星(環境)、利益を含む複数の利害関係者へと移行している。 マルチステークホルダーの意思決定を例示する業界からの事例を特定し、その例を使用して、学者や実践者が取り組むべき研究課題を提案する。 マーケティング戦略、コミュニケーションメディアとメッセージ、計測システムを中心に、事例と研究の方向性が整理される。

This editorial outlines an expanded scope for the next (fifth) generation of integrated marketing communication. It identifies key market forces that gave rise to this evolution and describes a trajectory of where Integrated Marketing Communication (IMC) has been and where it is going. The central shift is moving from primarily focusing on one stakeholder to multiple ones, including people (employees and society), the planet (environment), and profits. It identifies examples from industry that exemplify multi-stakeholder decision-making and uses the examples to suggest research questions that academics and practitioners should address. Examples and research directions are organized around marketing strategy, communication media and messages, and measurement systems.
翻訳日:2024-04-09 19:50:28 公開日:2024-04-06
# 多目的ソフトウェア構成調整への適応

Adapting Multi-objectivized Software Configuration Tuning ( http://arxiv.org/abs/2404.04744v1 )

ライセンス: Link先を確認
Tao Chen, Miqing Li, (参考訳) より良いパフォーマンス(例えば、レイテンシやスループット)のためにソフトウェア構成をチューニングする場合、多くの最適化者が直面する重要な問題は、高度に頑丈な構成のランドスケープと高価な測定によって構成される、局所的な最適トラップの存在である。 これらの問題を緩和するために、最近の取り組みは、従来の方法のように最適化器を設計するのではなく、最適化モデル(メタ多目的化またはMMOと呼ばれる)のレベルに重点を置いている。 これは、探索が局所最適から飛び出すのを助けるために、補助的な性能目標と目標性能目標を用いて行われる。 有効ではあるが、MMOは2つの目標のバランスをとるために固定的な重みを必要としている。 しかし、様々な構成可能なソフトウェアシステムを考えると、重量の「スイートスポット」は異なるケースで劇的に変化し、試行錯誤なしに適切な設定を見つけることは不可能である。 本稿では,AdMMOと呼ばれる重み適応手法を提案することで,MMOのこの重大な欠点を克服しようとしている。 私たちのキーとなるアイデアは、チューニング中に適切なタイミングで重みを適応的に調整し、非支配的な構成のかなりの割合を維持できるようにすることです。 さらに、「良い」重複によって提供される豊富な情報を失うことなく、重複構成が多すぎる問題に対処する部分的重複保持機構を設計する。 いくつかの実世界のシステム、目的、予算の実験では、AdMMOは71%のケースにおいて、MMOと幅広い最先端のオプティマイザよりもはるかに優れており、最高速度は2.2倍から20倍である。

When tuning software configuration for better performance (e.g., latency or throughput), an important issue that many optimizers face is the presence of local optimum traps, compounded by a highly rugged configuration landscape and expensive measurements. To mitigate these issues, a recent effort has shifted to focus on the level of optimization model (called meta multi-objectivization or MMO) instead of designing better optimizers as in traditional methods. This is done by using an auxiliary performance objective, together with the target performance objective, to help the search jump out of local optima. While effective, MMO needs a fixed weight to balance the two objectives-a parameter that has been found to be crucial as there is a large deviation of the performance between the best and the other settings. However, given the variety of configurable software systems, the "sweet spot" of the weight can vary dramatically in different cases and it is not possible to find the right setting without time-consuming trial and error. In this paper, we seek to overcome this significant shortcoming of MMO by proposing a weight adaptation method, dubbed AdMMO. Our key idea is to adaptively adjust the weight at the right time during tuning, such that a good proportion of the nondominated configurations can be maintained. Moreover, we design a partial duplicate retention mechanism to handle the issue of too many duplicate configurations without losing the rich information provided by the "good" duplicates. Experiments on several real-world systems, objectives, and budgets show that, for 71% of the cases, AdMMO is considerably superior to MMO and a wide range of state-of-the-art optimizers while achieving generally better efficiency with the best speedup between 2.2x and 20x.
翻訳日:2024-04-09 19:50:28 公開日:2024-04-06
# ビデオ超解像に対する協調的フィードバック識別伝搬

Collaborative Feedback Discriminative Propagation for Video Super-Resolution ( http://arxiv.org/abs/2404.04745v1 )

ライセンス: Link先を確認
Hao Li, Xiang Chen, Jiangxin Dong, Jinhui Tang, Jinshan Pan, (参考訳) 既存のビデオ超解像法(VSR)の主な成功は、主に空間的および時間的情報の探索から来ており、通常はアライメントモジュールによる繰り返し伝搬モジュールによって達成される。 しかし、不正確なアライメントは通常、重要なアーティファクトを持つアライメントにつながり、伝播中に蓄積され、ビデオ復元に影響を与える。 さらに、伝搬モジュールは、複雑な動きや閉塞の場合に失敗し、高品質なフレーム復元の性能が制限されるような、前向きまたは後向きの時間ステップのみを伝搬する。 これらの課題に対処するために,不正確な特徴を補正するための協調的フィードバック識別法(CFD)を提案する。 本稿では,情報探索を適応的に行う識別アライメント補正(DAC)手法を開発し,不正確なアライメントに起因するアーティファクトの影響を低減する。 そこで本研究では,フィードバックとゲーティング機構を利用した協調的フィードバック伝搬(CFP)モジュールを提案する。 最後に,提案するDACとCFPを一般的なVSRネットワークに組み込んで,本手法の有効性を検証する。 いくつかのベンチマークにおける定量的および定性的な実験により,本手法はモデルの複雑さを低く保ちながら既存のVSRモデルの性能を向上させることができることを示した。 ソースコードと事前訓練されたモデルは、 \url{https://github.com/House-Leo/CFDVSR}で入手できる。

The key success of existing video super-resolution (VSR) methods stems mainly from exploring spatial and temporal information, which is usually achieved by a recurrent propagation module with an alignment module. However, inaccurate alignment usually leads to aligned features with significant artifacts, which will be accumulated during propagation and thus affect video restoration. Moreover, propagation modules only propagate the same timestep features forward or backward that may fail in case of complex motion or occlusion, limiting their performance for high-quality frame restoration. To address these issues, we propose a collaborative feedback discriminative (CFD) method to correct inaccurate aligned features and model long -range spatial and temporal information for better video reconstruction. In detail, we develop a discriminative alignment correction (DAC) method to adaptively explore information and reduce the influences of the artifacts caused by inaccurate alignment. Then, we propose a collaborative feedback propagation (CFP) module that employs feedback and gating mechanisms to better explore spatial and temporal information of different timestep features from forward and backward propagation simultaneously. Finally, we embed the proposed DAC and CFP into commonly used VSR networks to verify the effectiveness of our method. Quantitative and qualitative experiments on several benchmarks demonstrate that our method can improve the performance of existing VSR models while maintaining a lower model complexity. The source code and pre-trained models will be available at \url{https://github.com/House-Leo/CFDVSR}.
翻訳日:2024-04-09 19:50:28 公開日:2024-04-06
# 多言語脳サージオン:大きな言語モデルは圧縮できない

Multilingual Brain Surgeon: Large Language Models Can be Compressed Leaving No Language Behind ( http://arxiv.org/abs/2404.04748v1 )

ライセンス: Link先を確認
Hongchuan Zeng, Hongshen Xu, Lu Chen, Kai Yu, (参考訳) 大規模言語モデル (LLMs) は自然言語処理の新しい時代を迎えたが、その巨大なサイズは実用性のために効果的な圧縮技術を必要としている。 多くのモデル圧縮技術が研究されているが、それらは典型的には多言語コンテキストを無視するキャリブレーションセットに依存しており、低リソース言語ではかなりの精度の劣化をもたらす。 本稿では,多言語LLM圧縮のための新しい校正データサンプリング手法であるMultilingual Brain Surgeon (MBS)を紹介する。 MBSは、モデルトレーニングデータセットの言語分布に比例して、様々な言語からの校正データをサンプリングすることで、既存の手法の英語中心の制限を克服する。 BLOOM多言語 LLM を用いて実験を行った結果,MBS は,特に低リソース言語において,既存の英語中心圧縮法の性能を向上させることが示された。 また、圧縮時の言語相互作用のダイナミクスを明らかにし、トレーニングセット内の言語の割合が大きくなるほど、その言語が校正言語に類似するほど、圧縮後の言語の性能が向上することを示した。 結論として,MBS は多言語 LLM の圧縮に革新的なアプローチを示し,性能格差に対処し,既存の圧縮手法の言語傾きを改善する。

Large Language Models (LLMs) have ushered in a new era in Natural Language Processing, but their massive size demands effective compression techniques for practicality. Although numerous model compression techniques have been investigated, they typically rely on a calibration set that overlooks the multilingual context and results in significant accuracy degradation for low-resource languages. This paper introduces Multilingual Brain Surgeon (MBS), a novel calibration data sampling method for multilingual LLMs compression. MBS overcomes the English-centric limitations of existing methods by sampling calibration data from various languages proportionally to the language distribution of the model training datasets. Our experiments, conducted on the BLOOM multilingual LLM, demonstrate that MBS improves the performance of existing English-centric compression methods, especially for low-resource languages. We also uncover the dynamics of language interaction during compression, revealing that the larger the proportion of a language in the training set and the more similar the language is to the calibration language, the better performance the language retains after compression. In conclusion, MBS presents an innovative approach to compressing multilingual LLMs, addressing the performance disparities and improving the language inclusivity of existing compression techniques.
翻訳日:2024-04-09 19:50:28 公開日:2024-04-06
# AI研究、政策、実践の10の優先事項

Now, Later, and Lasting: Ten Priorities for AI Research, Policy, and Practice ( http://arxiv.org/abs/2404.04750v1 )

ライセンス: Link先を確認
Eric Horvitz, Vincent Conitzer, Sheila McIlraith, Peter Stone, (参考訳) 人工知能(AI)の進歩は、私たちの生活や社会の多くの側面を変革し、大きな機会をもたらすと同時に、重大なリスクや課題を生じさせます。 今後数十年は、産業革命に匹敵する人類の転換点になるかもしれない。 AIに関する百年研究の創始者やリーダーの視点から、前進するための一連の推奨事項を共有します。 10年前に立ち上げられたこのプロジェクトは、複数の専門分野の専門家による永続的な一連の研究にコミットし、人間や社会に対するAIの即時的、長期的、そして遠方的な影響を評価し、AIの研究、政策、実践についてレコメンデーションを行う。 ニューラルモデルから新たな能力が生まれるのを目の当たりにしているので、これらのモデルとその振る舞いに関する科学的理解を深める努力をすることが重要です。 技術的、社会的、社会技術的レンズを通じて、AIが人や社会に与える影響に対処し、エンジニアリング、社会的、行動的、経済的な分野からの声を含む、さまざまな専門家の洞察を取り入れなければならない。 さまざまな利害関係者間の対話、コラボレーション、行動を促進することで、私たちは、AIの開発と展開を、人間の繁栄に貢献する可能性を最大化する方法で戦略的に導くことができます。 短期的な意味と長期的な意味に焦点をあてる分野が多様化しているにもかかわらず、どちらも重要な意味を持つと考えている。 1950年、AIのパイオニアの一人であるアラン・チューリングは「我々は少し先までしか見ることができないが、やるべきことはたくさんある」と記した。 AI技術の短期的および長期的影響の両方に対処する、アクションのための10のレコメンデーションを提供します。

Advances in artificial intelligence (AI) will transform many aspects of our lives and society, bringing immense opportunities but also posing significant risks and challenges. The next several decades may well be a turning point for humanity, comparable to the industrial revolution. We write to share a set of recommendations for moving forward from the perspective of the founder and leaders of the One Hundred Year Study on AI. Launched a decade ago, the project is committed to a perpetual series of studies by multidisciplinary experts to evaluate the immediate, longer-term, and far-reaching effects of AI on people and society, and to make recommendations about AI research, policy, and practice. As we witness new capabilities emerging from neural models, it is crucial that we engage in efforts to advance our scientific understanding of these models and their behaviors. We must address the impact of AI on people and society through technical, social, and sociotechnical lenses, incorporating insights from a diverse range of experts including voices from engineering, social, behavioral, and economic disciplines. By fostering dialogue, collaboration, and action among various stakeholders, we can strategically guide the development and deployment of AI in ways that maximize its potential for contributing to human flourishing. Despite the growing divide in the field between focusing on short-term versus long-term implications, we think both are of critical importance. As Alan Turing, one of the pioneers of AI, wrote in 1950, "We can only see a short distance ahead, but we can see plenty there that needs to be done." We offer ten recommendations for action that collectively address both the short- and long-term potential impacts of AI technologies.
翻訳日:2024-04-09 19:40:41 公開日:2024-04-06
# 大規模言語モデルが直面する課題 : マルチエージェント・フロッキングの解法

Challenges Faced by Large Language Models in Solving Multi-Agent Flocking ( http://arxiv.org/abs/2404.04752v1 )

ライセンス: Link先を確認
Peihan Li, Vishnu Menon, Bhavanaraj Gudiguntla, Daniel Ting, Lifeng Zhou, (参考訳) フラッキング(Flocking)とは、システム内の複数のエージェントが衝突を避け、望ましい形成を維持しながら互いに近づこうとする行動である。 これは自然界で観察され、自然災害の捜索と救助、野生動物追跡、周辺監視とパトロールなどのロボット工学に応用されている。 近年,大規模言語モデル (LLM) は,個々の意思決定者として様々な協調課題を解くという印象的な能力を示している。 LLMによるマルチエージェント・フロッキングの解決は、空間的および分散的な意思決定を必要とする状況において、それらの有用性を示す。 しかし, LLM を利用したエージェントがマルチエージェント・フロッキングを実装している場合, 望ましい動作に欠ける。 広範囲な検査を行った結果,LSMを個別の意思決定者として扱うエージェントは,初期位置の平均値に収束するか,互いに分岐するかを選択するのが普通であることが判明した。 問題を分解した後、LLMは形状の維持や距離の維持を意味のある方法では理解できないことが判明した。 LLMでマルチエージェントの群れを解くことで、共同空間推論を理解する能力が向上し、より複雑なマルチエージェントタスクに対処するための基礎を築いた。 本稿では,マルチエージェント群におけるLCMの課題について論じ,今後の改善と研究の分野を提案する。

Flocking is a behavior where multiple agents in a system attempt to stay close to each other while avoiding collision and maintaining a desired formation. This is observed in the natural world and has applications in robotics, including natural disaster search and rescue, wild animal tracking, and perimeter surveillance and patrol. Recently, large language models (LLMs) have displayed an impressive ability to solve various collaboration tasks as individual decision-makers. Solving multi-agent flocking with LLMs would demonstrate their usefulness in situations requiring spatial and decentralized decision-making. Yet, when LLM-powered agents are tasked with implementing multi-agent flocking, they fall short of the desired behavior. After extensive testing, we find that agents with LLMs as individual decision-makers typically opt to converge on the average of their initial positions or diverge from each other. After breaking the problem down, we discover that LLMs cannot understand maintaining a shape or keeping a distance in a meaningful way. Solving multi-agent flocking with LLMs would enhance their ability to understand collaborative spatial reasoning and lay a foundation for addressing more complex multi-agent tasks. This paper discusses the challenges LLMs face in multi-agent flocking and suggests areas for future improvement and research.
翻訳日:2024-04-09 19:40:41 公開日:2024-04-06
# ゼロ温度平衡量子不純物問題に対する無限グラスマン時間進化行列積演算子法

Infinite Grassmann time-evolving matrix product operator method for zero-temperature equilibrium quantum impurity problems ( http://arxiv.org/abs/2404.04757v1 )

ライセンス: Link先を確認
Chu Guo, Ruofan Chen, (参考訳) グラスマン時間進化行列積演算子(GTEMPO)法は、量子不純物問題のリアルタイム力学の正確かつ効率的な数値法であることが証明されている。 実時間計算へのその応用は、連続時間量子モンテカルロ(CTQMC)のような確立された方法に比べてはるかに少ない。 マルチタイム不純物状態は無限境界条件で時間変換不変であり、虚時軸全体にまたがる開境界GMPSの代わりに、非自明な単位セルを持つ無限グラスマン行列積状態(GMPS)として表すことができる。 我々は、ゼロ温度平衡量子不純物問題を対象とした非常に効率的な無限GTEMPOアルゴリズムを考案した。 提案手法の性能を示すため,非相互作用限界における正確な解と,最大2軌道のアンダーソン不純物モデルにおけるCTQMC計算とを比較し,無限GMPSの結合次元が有限温度モデルよりもはるかに小さいことを示す。

The Grassmann time-evolving matrix product operator (GTEMPO) method has proven to be an accurate and efficient numerical method for the real-time dynamics of quantum impurity problems. Whereas its application for imaginary-time calculations is much less competitive compared to well-established methods such as the continuous-time quantum Monte Carlo (CTQMC). In this work, we unleash the full power of GTEMPO for zero-temperature imaginary-time calculations: the multi-time impurity state is time-translationally invariant with infinite boundary condition, therefore it can be represented as an infinite Grassmann matrix product state (GMPS) with nontrivial unit cell in a single time step, instead of an open boundary GMPS spanning the whole imaginary-time axis. We devise a very efficient infinite GTEMPO algorithm targeted at zero-temperature equilibrium quantum impurity problems, which is known to be a hard regime for quantum Monte Carlo methods. To demonstrate the performance of our method, we benchmark it against exact solutions in the noninteracting limit, and against CTQMC calculations in the Anderson impurity models with up to two orbitals, where we show that the required bond dimension of the infinite GMPS is much smaller than its finite-temperature counterpart.
翻訳日:2024-04-09 19:40:41 公開日:2024-04-06
# 小さすぎるとどうなるか? 圧縮が小さめの事前学習言語モデルに与える影響を探る

What Happens When Small Is Made Smaller? Exploring the Impact of Compression on Small Data Pretrained Language Models ( http://arxiv.org/abs/2404.04759v1 )

ライセンス: Link先を確認
Busayo Awobade, Mardiyyah Oduwole, Steven Kolawole, (参考訳) 圧縮技術は、大規模言語モデルの効率的なトレーニングと展開を可能にすることによって、機械学習の進歩に不可欠である。 しかし、これらの手法は、より少ない量のデータと計算制約の下で訓練される低リソース言語モデルという文脈において、限られた関心を集めている。 本稿では, AfriBERTa を用いた低リソース小データ言語モデルにおいて, プルーニング, 知識蒸留, 量子化の有効性について検討する。 実験のバッテリを用いて,圧縮が精度を超えるいくつかの指標のパフォーマンスに与える影響を評価する。 本研究は, 圧縮技術が小型データモデルの効率と有効性を大幅に向上することを示すとともに, 大規模パラメータ化モデルに対する圧縮の効果に関する一般的な信念が低パラメータ化モデルに対して真であることを示すものである。

Compression techniques have been crucial in advancing machine learning by enabling efficient training and deployment of large-scale language models. However, these techniques have received limited attention in the context of low-resource language models, which are trained on even smaller amounts of data and under computational constraints, a scenario known as the "low-resource double-bind." This paper investigates the effectiveness of pruning, knowledge distillation, and quantization on an exclusively low-resourced, small-data language model, AfriBERTa. Through a battery of experiments, we assess the effects of compression on performance across several metrics beyond accuracy. Our study provides evidence that compression techniques significantly improve the efficiency and effectiveness of small-data language models, confirming that the prevailing beliefs regarding the effects of compression on large, heavily parameterized models hold true for less-parameterized, small-data models.
翻訳日:2024-04-09 19:40:41 公開日:2024-04-06
# Hammersley-Chapman-Robbins境界による機密性の保証

Guarantees of confidentiality via Hammersley-Chapman-Robbins bounds ( http://arxiv.org/abs/2404.02866v2 )

ライセンス: Link先を確認
Kamalika Chaudhuri, Chuan Guo, Laurens van der Maaten, Saeed Mahloujifar, Mark Tygert, (参考訳) ディープニューラルネットワークによる推論中のプライバシ保護は、最終分類器や他のタスク固有のレイヤの前に、最後のレイヤのアクティベーションにノイズを加えることで実現される。 このような層の活性化は、"features"(一般的には"embeddings"や"feature embeddeds"と呼ばれる)として知られている。 ノイズが加わったことで、ノイズのある特徴から入力が復元されるのを防ぐことができる。 入力の可能な全ての非バイアス推定器のばらつきを低くすることは、そのような付加ノイズから生じる機密性を定量化する。 ハマーズリーとチャップマンとロビンズの古典的不等式(HCR境界)から、連続で計算的に計算可能な境界が利用できる。 数値実験により、HCR境界は、画像分類用の10のクラスを含むデータセット "MNIST" と "CIFAR-10" で、小さなニューラルネットに対して有効であることが示唆された。 HCR境界は、標準のディープニューラルネットワークである"ResNet-18"と"Swin-T"を、1000のクラスを含むデータセットである"ImageNet-1000"で事前トレーニングする際の入力の機密性を保証するために、それ自体では不十分であるように見える。 ImageNetの場合、機密性を提供する他の方法による機能へのノイズの追加を補うことは保証される。 いずれの場合も, ノイズによる分類精度の低下がほとんどない付加雑音の量について検討した。 これにより、画像分類作業の精度を大幅に低下させることなく、秘密性を高めることができる。

Protecting privacy during inference with deep neural networks is possible by adding noise to the activations in the last layers prior to the final classifiers or other task-specific layers. The activations in such layers are known as "features" (or, less commonly, as "embeddings" or "feature embeddings"). The added noise helps prevent reconstruction of the inputs from the noisy features. Lower bounding the variance of every possible unbiased estimator of the inputs quantifies the confidentiality arising from such added noise. Convenient, computationally tractable bounds are available from classic inequalities of Hammersley and of Chapman and Robbins -- the HCR bounds. Numerical experiments indicate that the HCR bounds are on the precipice of being effectual for small neural nets with the data sets, "MNIST" and "CIFAR-10," which contain 10 classes each for image classification. The HCR bounds appear to be insufficient on their own to guarantee confidentiality of the inputs to inference with standard deep neural nets, "ResNet-18" and "Swin-T," pre-trained on the data set, "ImageNet-1000," which contains 1000 classes. Supplementing the addition of noise to features with other methods for providing confidentiality may be warranted in the case of ImageNet. In all cases, the results reported here limit consideration to amounts of added noise that incur little degradation in the accuracy of classification from the noisy features. Thus, the added noise enhances confidentiality without much reduction in the accuracy on the task of image classification.
翻訳日:2024-04-09 13:16:25 公開日:2024-04-06
# 概念 -- システム中心およびユーザ中心の要素を持つ会話レコメンダシステムの評価プロトコル

Concept -- An Evaluation Protocol on Conversation Recommender Systems with System-centric and User-centric Factors ( http://arxiv.org/abs/2404.03304v2 )

ライセンス: Link先を確認
Chen Huang, Peixin Qin, Yang Deng, Wenqiang Lei, Jiancheng Lv, Tat-Seng Chua, (参考訳) 会話レコメンデーションシステム(CRS)は,近年の学界の進歩にもかかわらず,現実のシナリオにおけるユーザエクスペリエンスについて批判されている。 既存のCRSの評価プロトコルは、ユーザ中心の側面を無視しながら、会話の有効性や流布度などのシステム中心の要素を優先することができる。 そこで本研究では,システムとユーザ中心の要素を統合した新しい包括的評価プロトコルであるConceptを提案する。 我々はこれらの要因を表現する上で重要な3つの特徴を概念化し、それらをさらに6つの一次能力に分割する。 Conceptを実装するために,LLMベースのユーザシミュレータと評価器を採用し,各プライマリ能力に適合したブラスリックをスコアリングする。 私たちのプロトコルであるConceptは、二重目的に役立ちます。 まず、現在のCRSモデルの長所と短所の概要を提供する。 第二に、「全能」なChatGPTにおける低ユーザビリティの問題を特定し、CRSを評価するための包括的なリファレンスガイドを提供し、CRSの改善の基礎を定めている。

The conversational recommendation system (CRS) has been criticized regarding its user experience in real-world scenarios, despite recent significant progress achieved in academia. Existing evaluation protocols for CRS may prioritize system-centric factors such as effectiveness and fluency in conversation while neglecting user-centric aspects. Thus, we propose a new and inclusive evaluation protocol, Concept, which integrates both system- and user-centric factors. We conceptualise three key characteristics in representing such factors and further divide them into six primary abilities. To implement Concept, we adopt a LLM-based user simulator and evaluator with scoring rubrics that are tailored for each primary ability. Our protocol, Concept, serves a dual purpose. First, it provides an overview of the pros and cons in current CRS models. Second, it pinpoints the problem of low usability in the "omnipotent" ChatGPT and offers a comprehensive reference guide for evaluating CRS, thereby setting the foundation for CRS improvement.
翻訳日:2024-04-09 13:16:25 公開日:2024-04-06
# Gen4DS: 生成AI時代のデータストーリーテリングに関するワークショップ

Gen4DS: Workshop on Data Storytelling in an Era of Generative AI ( http://arxiv.org/abs/2404.01622v2 )

ライセンス: Link先を確認
Xingyu Lan, Leni Yang, Zezhong Wang, Yun Wang, Danqing Shi, Sheelagh Carpendale, (参考訳) ストーリーテリングは、デジタル時代に復活した古代で貴重な人間の能力である。 過去10年間で、学術と産業の両方において、データストーリーテリングの認識と応用が顕著に急増した。 近年、生成AIの急速な発展により、この分野に新たな機会と課題が生まれ、多くの新しい疑問が持ち上がった。 これらの質問はすぐに論文化されるとは限らないが、コミュニティが今後の重要な課題や研究課題をより明確にするためには、迅速に議論する必要があると考えている。 ですから、私たちのワークショップ(Gen4DS)に参加して、次のような質問を議論してください。 生成AIは、どのようにデータストーリの作成を促進できますか? 生成AIはどのようにデータストーリーテラーのワークフローを変えるのか? ストーリーテリングにAIを導入する際の落とし穴とリスクは何か? ワークショップのために、ペーパープレゼンテーションとインタラクティブなアクティビティ(ハンズオン作成、グループディスカッションポッド、議論の的になっている問題に関する議論を含む)の両方を設計しました。 参加者が最新の進歩について学び、データストーリーテリングにおける先駆的な仕事を学び、互いに批判的な会話をし合い、イベントにおいて楽しい、忘れられない、有意義な経験を得られることを期待しています。

Storytelling is an ancient and precious human ability that has been rejuvenated in the digital age. Over the last decade, there has been a notable surge in the recognition and application of data storytelling, both in academia and industry. Recently, the rapid development of generative AI has brought new opportunities and challenges to this field, sparking numerous new questions. These questions may not necessarily be quickly transformed into papers, but we believe it is necessary to promptly discuss them to help the community better clarify important issues and research agendas for the future. We thus invite you to join our workshop (Gen4DS) to discuss questions such as: How can generative AI facilitate the creation of data stories? How might generative AI alter the workflow of data storytellers? What are the pitfalls and risks of incorporating AI in storytelling? We have designed both paper presentations and interactive activities (including hands-on creation, group discussion pods, and debates on controversial issues) for the workshop. We hope that participants will learn about the latest advances and pioneering work in data storytelling, engage in critical conversations with each other, and have an enjoyable, unforgettable, and meaningful experience at the event.
翻訳日:2024-04-09 11:18:23 公開日:2024-04-06
# パッシブ心臓力学をパーソナライズするための最適化フレームワーク

An Optimization Framework to Personalize Passive Cardiac Mechanics ( http://arxiv.org/abs/2404.02807v3 )

ライセンス: Link先を確認
Lei Shi, Ian Chen, Hiroo Takayama, Vijay Vedula, (参考訳) パーソナライズされた心臓力学モデリングは、健康と疾患における心臓機能の生体力学を理解し、治療計画を支援する強力なツールである。 しかし、現在のモデルでは、単一の心臓で取得した医療画像のみに制限されており、動的画像取得処理に適用性に制限があることが多い。 本研究では、時間依存医療画像データを用いて、心臓組織の受動力学的特性を推定する逆有限要素解析(iFEA)フレームワークを提案する。 iFEAフレームワークは、新しいネスト最適化方式に依存しており、外部イテレーションは従来の最適化手法を使用して画像データに適合するパラメータを近似し、内部イテレーションはSellierのアルゴリズムを用いてストレスのない参照構成を推定する。 受動的機械的挙動を特徴づけることに焦点をあてて、このフレームワークは構造に基づく異方性超弾性構成モデルと生理学的に関連する境界条件を用いて心筋力学をシミュレートする。 安定な変分多スケールの定式化を用いて, 非線形エラストダイナミックス方程式を解析し, 心臓力学への応用を検証した。 健常者および肥大型閉塞性心筋症(HOCM)3例の心相分解CT像から得られた心室および左心房の心筋モデルを用いて検討した。 繊維方向パラメータ,メッシュサイズ,最適材料パラメータに対する初期パラメータ,摂動の影響を,厳密な感度解析を用いて評価した。 現在のiFEAの性能は、典型的には単相画像取得に使用される電力法に基づく圧力-体積関係と比較される。

Personalized cardiac mechanics modeling is a powerful tool for understanding the biomechanics of cardiac function in health and disease and assisting in treatment planning. However, current models are limited to using medical images acquired at a single cardiac phase, often limiting their applicability for processing dynamic image acquisitions. This study introduces an inverse finite element analysis (iFEA) framework to estimate the passive mechanical properties of cardiac tissue using time-dependent medical image data. The iFEA framework relies on a novel nested optimization scheme, in which the outer iterations utilize a traditional optimization method to best approximate material parameters that fit image data, while the inner iterations employ an augmented Sellier's algorithm to estimate the stress-free reference configuration. With a focus on characterizing the passive mechanical behavior, the framework employs structurally based anisotropic hyperelastic constitutive models and physiologically relevant boundary conditions to simulate myocardial mechanics. We use a stabilized variational multiscale formulation for solving the governing nonlinear elastodynamics equations, verified for cardiac mechanics applications. The framework is tested in myocardium models of biventricle and left atrium derived from cardiac phase-resolved computed tomographic (CT) images of a healthy subject and three patients with hypertrophic obstructive cardiomyopathy (HOCM). The impact of the choice of optimization methods and other numerical settings, including fiber direction parameters, mesh size, initial parameters for optimization, and perturbations to optimal material parameters, is assessed using a rigorous sensitivity analysis. The performance of the current iFEA is compared against an assumed power-law-based pressure-volume relation, typically used for single-phase image acquisition.
翻訳日:2024-04-09 11:18:23 公開日:2024-04-06
# ニュートリノ・ウェーブパレットの空間的極性に関する直接実験的制約

Direct Experimental Constraints on the Spatial Extent of a Neutrino Wavepacket ( http://arxiv.org/abs/2404.03102v2 )

ライセンス: Link先を確認
Joseph Smolsky, Kyle G Leach, Ryan Abells, Pedro Amaro, Adrien Andoche, Keith Borbridge, Connor Bray, Robin Cantor, David Diercks, Spencer Fretwell, Stephan Friedrich, Abigail Gillespie, Mauro Guerra, Ad Hall, Cameron N Harris, Jackson T Harris, Calvin Hinkle, Amii Lamm, Leendert M Hayen, Paul-Antoine Hervieux, Geon-Bo Kim, Inwook Kim, Annika Lennarz, Vincenzo Lordi, Jorge Machado, Andrew Marino, David McKeen, Xavier Mougeot, Francisco Ponce, Chris Ruiz, Amit Samanta, José Paulo Santos, Caitlyn Stone-Whitehead, John Taylor, Joseph Templet, Sriteja Upadhyayula, Louis Wagner, William K Warburton, (参考訳) ニュートリノは宇宙の相対的な存在量が高いにもかかわらず、自然界の基本的な粒子としては最も理解されていない。 また、非常に弱い相互作用確率のため、基本系の量子コヒーレンスを研究するためのユニークなシステムも提供する。 実験関連源で放出されるニュートリノの量子的性質は事実上不明であり、ニュートリノ波束の空間幅に関する理論的予測は桁違いに変化する。 弱い核崩壊では、ニュートリノの波束である$\sigma_{\nu,x}$は、生産時の親の空間的波動関数と関連している。 ここでは、核電子捕獲(EC)崩壊時に放出される反核子核のエネルギー幅$\sigma_{\textrm{N},E}$を抽出する新しい実験的概念により、この量の最初の直接的限界を提示する。 EC崩壊過程の最終状態は、再沸騰する$^7$Li核と電子ニュートリノ(\nu_e$)を含む。 ^7$Liエネルギースペクトルは、低温電荷感受性検出器として動作する高分解能超伝導トンネル接合部に、$^7$Be放射性同位体を直接埋め込むことにより、高精度に測定される。 リコイル娘の空間コヒーレンスの限界は$\sigma_{\textrm{N}, x} \geq 6.2$ pmであり、これは核スケールよりも空間コヒーレントな状態のままであることを意味する。 さらに、これはニュートリノ・ウェーブパケットのサイズに対する低い制限である$\sigma_{\nu,x} \geq 35$ nmであり、これらは結合された全ての反応器振動実験の限界よりも5桁以上の拘束力を持つ。 これらの結果は、量子コヒーレンス、サブ原子スケールでの空間的局在化の性質、ニュートリノ物理データの解釈、そして将来の大規模実験の潜在的な到達度など、いくつかの領域において幅広い意味を持つ。

Despite their high relative abundance in our Universe, neutrinos are the least understood fundamental particles of nature. They also provide a unique system to study quantum coherence in fundamental systems due to their extremely weak interaction probabilities. The quantum properties of neutrinos emitted in experimentally relevant sources are virtually unknown and theoretical predictions for the spatial width of neutrino wavepackets vary by many orders of magnitude. In weak nuclear decay, the size of a neutrino wavepacket, $\sigma_{\nu,x}$, is related to the spatial wavefunction of its parent at production. Here, we present the first direct limits of this quantity through a new experimental concept to extract the energy width, $\sigma_{\textrm{N},E}$, of the recoil daughter nucleus emitted in the nuclear electron capture (EC) decay of $^7$Be. The final state in the EC decay process contains a recoiling $^7$Li nucleus and an electron neutrino ($\nu_e$) which are entangled at their creation. The $^7$Li energy spectrum is measured to high precision by directly embedding $^7$Be radioisotopes into a high resolution superconducting tunnel junction that is operated as a cryogenic charge sensitive detector. The lower limit on the spatial coherence of the recoil daughter was found to be $\sigma_{\textrm{N}, x} \geq 6.2$ pm, which implies the system remains in a spatially coherent state much larger than the nuclear scale. Further, this implies a lower limit on the size of a neutrino wavepacket, $\sigma_{\nu,x} \geq 35$ nm, which is more than five orders of magnitude more stringent than the limits from all combined reactor oscillation experiments. These results have wide-reaching implications in several areas including quantum coherence, the nature of spatial localization at sub-atomic scales, interpretation of neutrino physics data, and the potential reach of future large-scale experiments.
翻訳日:2024-04-09 11:18:23 公開日:2024-04-06
# SEPE-SQED:意味的に等価なプログラム実行によるシンボル的クイックエラー検出

SEPE-SQED: Symbolic Quick Error Detection by Semantically Equivalent Program Execution ( http://arxiv.org/abs/2404.03172v2 )

ライセンス: Link先を確認
Yufeng Li, Qiusong Yang, Yiwei Ci, Enyuan Tian, (参考訳) シンボリッククイックエラー検出(SQED)は、フォーマルチップ検証の効率を大幅に改善した。 しかし,自己整合性に依存した単一命令バグの検出には限界がある。 そこで本研究では,意味論的に等価なプログラム実行(SEPE-SQED)を用いた記号的クイックエラー検出法を提案する。 SEPE-SQEDは、元の命令とその意味論的に等価なプログラム(命令シーケンス)への影響を識別することにより、単一命令バグを効果的に検出する。 プログラム合成に関連する探索空間を管理するために,最優先の第1アルゴリズムに基づくCEGISを導入する。 実験の結果,提案手法は,従来の手法と比較して,所望の等価プログラムセットを50%高速化することを示した。 SQEDと比較して、SEPE-SQEDは幅広い命令の組み合わせを提供し、特定のシナリオでバグをトリガーするための短いトレースを提供する。

Symbolic quick error detection (SQED) has greatly improved efficiency in formal chip verification. However, it has a limitation in detecting single-instruction bugs due to its reliance on the self-consistency property. To address this, we propose a new variant called symbolic quick error detection by semantically equivalent program execution (SEPE-SQED), which utilizes program synthesis techniques to find sequences with equivalent meanings to original instructions. SEPE-SQED effectively detects single-instruction bugs by differentiating their impact on the original instruction and its semantically equivalent program (instruction sequence). To manage the search space associated with program synthesis, we introduce the CEGIS based on the highest priority first algorithm. The experimental results show that our proposed CEGIS approach improves the speed of generating the desired set of equivalent programs by 50% in time compared to previous methods. Compared to SQED, SEPE-SQED offers a wider variety of instruction combinations and can provide a shorter trace for triggering bugs in certain scenarios.
翻訳日:2024-04-09 11:18:23 公開日:2024-04-06
# RALL-E: テキスト音声合成のためのChain-of-Thought Promptingを用いたロバストコーデック言語モデリング

RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis ( http://arxiv.org/abs/2404.03204v2 )

ライセンス: Link先を確認
Detai Xin, Xu Tan, Kai Shen, Zeqian Ju, Dongchao Yang, Yuancheng Wang, Shinnosuke Takamichi, Hiroshi Saruwatari, Shujie Liu, Jinyu Li, Sheng Zhao, (参考訳) 本稿では,TTS合成のための頑健な言語モデリング手法であるRALL-Eを提案する。 大規模言語モデル(LLM)に基づく以前の研究は、ゼロショットTSにおいて印象的な性能を示したが、このような手法は、不安定な韻律(ピッチとリズム/デュレーション)や高い単語誤り率(WER)といった、言語モデルの自己回帰予測スタイルによって、しばしば弱い頑健さに悩まされる。 RALL-Eの背後にある中核的なアイデアはチェーン・オブ・シークレット(CoT)のプロンプトであり、LCMベースのTSの堅牢性を高めるため、タスクを単純なステップに分解する。 このアイデアを達成するために、RALL-Eはまず入力テキストの韻律的特徴(ピッチと持続時間)を予測し、それを中間条件としてCoTスタイルの音声トークンを予測する。 第二に、RALL-Eは予測時間プロンプトを用いてトランスフォーマーの自己注意重みの計算を誘導し、音声トークンを予測する際に対応する音素や韻律の特徴にフォーカスするようにモデルを強制する。 総合的な客観的評価と主観評価の結果、強力なベースライン法であるVALL-Eと比較して、RALL-E はゼロショット TTS の WER を 6.3 %$ (再ランクなし) と 2.1 %$ (再ランクなし) から 2.8 %$ (1.0 %$) に大幅に改善している。 さらに, VALL-E に難解な文を正しく合成し, 誤り率を 68 % から 4 % に下げることを示した。

We present RALL-E, a robust language modeling method for text-to-speech (TTS) synthesis. While previous work based on large language models (LLMs) shows impressive performance on zero-shot TTS, such methods often suffer from poor robustness, such as unstable prosody (weird pitch and rhythm/duration) and a high word error rate (WER), due to the autoregressive prediction style of language models. The core idea behind RALL-E is chain-of-thought (CoT) prompting, which decomposes the task into simpler steps to enhance the robustness of LLM-based TTS. To accomplish this idea, RALL-E first predicts prosody features (pitch and duration) of the input text and uses them as intermediate conditions to predict speech tokens in a CoT style. Second, RALL-E utilizes the predicted duration prompt to guide the computing of self-attention weights in Transformer to enforce the model to focus on the corresponding phonemes and prosody features when predicting speech tokens. Results of comprehensive objective and subjective evaluations demonstrate that, compared to a powerful baseline method VALL-E, RALL-E significantly improves the WER of zero-shot TTS from $6.3\%$ (without reranking) and $2.1\%$ (with reranking) to $2.8\%$ and $1.0\%$, respectively. Furthermore, we demonstrate that RALL-E correctly synthesizes sentences that are hard for VALL-E and reduces the error rate from $68\%$ to $4\%$.
翻訳日:2024-04-09 11:18:23 公開日:2024-04-06
# HAPNet:ハイブリッド・非対称・プログレッシブ・ヘテロジニアス・フュージョンによるRGB-サーマル・シーン・パーシングに向けて

HAPNet: Toward Superior RGB-Thermal Scene Parsing via Hybrid, Asymmetric, and Progressive Heterogeneous Feature Fusion ( http://arxiv.org/abs/2404.03527v2 )

ライセンス: Link先を確認
Jiahang Li, Peng Yun, Qijun Chen, Rui Fan, (参考訳) データ融合ネットワークは、RGB熱水シーン解析において大きな可能性を示している。 しかし、既存の研究の大部分は、不均一な特徴抽出と融合のための対称二重複素エンコーダに依存しており、RGBと熱モダリティの固有の相違に不適切な注意を払っている。 近年の視覚基礎モデル(VFM)の進歩は、膨大な量のラベルのないデータを自己監督することで、情報的、汎用的な特徴を抽出する能力が証明されている。 しかし、このポテンシャルはドメイン内ではまだ完全に活用されていない。 本研究では,本研究領域に向けて,RGB熱水シーン解析のためのVFM機能をフル活用するための実行可能な戦略を探究する。 具体的には、RGBと熱モダリティの特徴を深く掘り下げ、VFMと畳み込みニューラルネットワークの両方を組み込んだハイブリッド非対称エンコーダを設計する。 この設計により、相補的な異種特徴のより効果的な抽出が可能となり、後に二重経路の進行的な方法で融合される。 さらに,融合した特徴の局所的意味論をさらに強化する補助的タスクを導入し,RGB熱水シーン解析の全体的な性能を向上させる。 提案するHAPNetは, 従来のRGB熱水シーン解析ネットワークに比べて優れた性能を示し, 広く利用されている3つのRGB熱水シーン解析データセットの上位に位置する。 我々は,この新たなパラダイムが,データ融合シーン解析手法の今後の発展に新たな機会をもたらすと信じている。

Data-fusion networks have shown significant promise for RGB-thermal scene parsing. However, the majority of existing studies have relied on symmetric duplex encoders for heterogeneous feature extraction and fusion, paying inadequate attention to the inherent differences between RGB and thermal modalities. Recent progress in vision foundation models (VFMs) trained through self-supervision on vast amounts of unlabeled data has proven their ability to extract informative, general-purpose features. However, this potential has yet to be fully leveraged in the domain. In this study, we take one step toward this new research area by exploring a feasible strategy to fully exploit VFM features for RGB-thermal scene parsing. Specifically, we delve deeper into the unique characteristics of RGB and thermal modalities, thereby designing a hybrid, asymmetric encoder that incorporates both a VFM and a convolutional neural network. This design allows for more effective extraction of complementary heterogeneous features, which are subsequently fused in a dual-path, progressive manner. Moreover, we introduce an auxiliary task to further enrich the local semantics of the fused features, thereby improving the overall performance of RGB-thermal scene parsing. Our proposed HAPNet, equipped with all these components, demonstrates superior performance compared to all other state-of-the-art RGB-thermal scene parsing networks, achieving top ranks across three widely used public RGB-thermal scene parsing datasets. We believe this new paradigm has opened up new opportunities for future developments in data-fusion scene parsing approaches.
翻訳日:2024-04-09 11:18:23 公開日:2024-04-06
# CodeEditorBench: 大規模言語モデルのコード編集能力を評価する

CodeEditorBench: Evaluating Code Editing Capability of Large Language Models ( http://arxiv.org/abs/2404.03543v2 )

ライセンス: Link先を確認
Jiawei Guo, Ziming Li, Xueling Liu, Kaijing Ma, Tianyu Zheng, Zhouliang Yu, Ding Pan, Yizhi LI, Ruibo Liu, Yue Wang, Shuyue Guo, Xingwei Qu, Xiang Yue, Ge Zhang, Wenhu Chen, Jie Fu, (参考訳) コードのための大規模言語モデル(LLM)は急速に進化しており、コード編集が重要な機能として現れている。 我々はCodeEditorBenchを紹介した。これは、デバッグ、翻訳、研磨、要求切替を含むコード編集タスクにおけるLLMのパフォーマンスを厳格に評価するために設計された評価フレームワークである。 コード生成のみに焦点を当てた既存のベンチマークとは異なり、CodeEditorBenchは実際のシナリオとソフトウェア開発の実践的な側面を強調している。 5つのソースからさまざまなコーディング課題やシナリオをキュレートし、さまざまなプログラミング言語、複雑性レベル、編集タスクをカバーしています。 19のLCMの評価によると、クローズドソースモデル(特にGemini-UltraとGPT-4)はCodeEditorBenchのオープンソースモデルよりも優れており、問題タイプに基づいたモデルパフォーマンスの違いと、感性の向上が強調されている。 CodeEditorBenchは、コード編集機能を評価する堅牢なプラットフォームを提供することで、LLMの進歩を触媒することを目指している。 コミュニティがデータセットを拡張し、新興LLMをベンチマークできるように、すべてのプロンプトとデータセットをリリースします。 CodeEditorBenchを導入することで、コード編集におけるLLMの進歩に貢献し、研究者や実践者にとって貴重なリソースを提供する。

Large Language Models (LLMs) for code are rapidly evolving, with code editing emerging as a critical capability. We introduce CodeEditorBench, an evaluation framework designed to rigorously assess the performance of LLMs in code editing tasks, including debugging, translating, polishing, and requirement switching. Unlike existing benchmarks focusing solely on code generation, CodeEditorBench emphasizes real-world scenarios and practical aspects of software development. We curate diverse coding challenges and scenarios from five sources, covering various programming languages, complexity levels, and editing tasks. Evaluation of 19 LLMs reveals that closed-source models (particularly Gemini-Ultra and GPT-4), outperform open-source models in CodeEditorBench, highlighting differences in model performance based on problem types and prompt sensitivities. CodeEditorBench aims to catalyze advancements in LLMs by providing a robust platform for assessing code editing capabilities. We will release all prompts and datasets to enable the community to expand the dataset and benchmark emerging LLMs. By introducing CodeEditorBench, we contribute to the advancement of LLMs in code editing and provide a valuable resource for researchers and practitioners.
翻訳日:2024-04-09 11:18:23 公開日:2024-04-06