このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240127となっている論文です。

PDF登録状況(公開日: 20240127)

TitleAuthorsAbstract論文公表日・翻訳日
# グラフニューラルネットワークによるトライデント中のニュートリノ再構成

Neutrino Reconstruction in TRIDENT Based on Graph Neural Network ( http://arxiv.org/abs/2401.15324v1 )

ライセンス: Link先を確認
Cen Mo, Fuyudi Zhang, Liang Li(参考訳) TRopIcal DEep-sea Neutrino Telescope (TRIDENT)は、南シナ海に位置する次世代ニュートリノ望遠鏡である。 大きな検出器ボリュームと高度なハイブリッドデジタル光学モジュール(hdoms)の使用により、tridentは複数の天体物理学的ニュートリノ源を発見し、全フレーバーニュートリノ物理学を探索することを目指している。 一次ニュートリノの再構築は、これらの科学的目標への重要な道のり上にある。 我々は TRIDENT のためのグラフニューラルネットワーク (GNN) に基づく新しい再構成手法を開発した。 本稿では, TRIDENTにおけるトラックおよびシャワーのようなニュートリノイベントにおけるGNN方式の再構成性能について述べる。

TRopIcal DEep-sea Neutrino Telescope (TRIDENT) is a next-generation neutrino telescope to be located in the South China Sea. With a large detector volume and the use of advanced hybrid digital optical modules (hDOMs), TRIDENT aims to discover multiple astrophysical neutrino sources and probe all-flavor neutrino physics. The reconstruction resolution of primary neutrinos is on the critical path to these scientific goals. We have developed a novel reconstruction method based on graph neural network (GNN) for TRIDENT. In this paper, we present the reconstruction performance of the GNN-based approach on both track- and shower-like neutrino events in TRIDENT.
翻訳日:2024-03-03 19:35:28 公開日:2024-01-27
# 脳波画像分類のための主観非依存深層構造

Subject-Independent Deep Architecture for EEG-based Motor Imagery Classification ( http://arxiv.org/abs/2402.09438v1 )

ライセンス: Link先を確認
Shadi Sartipi and Mujdat Cetin(参考訳) 脳波(eeg)に基づく運動画像分類は、非侵襲的脳コンピューターインタフェース(bci)システムにおいて広く用いられている技術である。 脳波記録は被験者間の不均一性とラベル付きデータ不足に苦しむため,ラベル付きサンプルが限定された被験者とは独立にmiを実行する分類器の設計が望ましい。 これらの制約を克服するため,本論文ではssda(subject-independent semi-supervised deep architecture)を提案する。 提案するsssaは、教師なし要素と教師なし要素の2つの部分からなる。 トレーニングセットには、複数の被験者からのラベル付きデータとラベルなしデータの両方が含まれている。 まず、列状時空間オートエンコーダ(cst-ae)として知られる教師なし部分は、元のデータと再構成されたデータの類似性を最大化することにより、すべてのトレーニングサンプルから潜在特徴を抽出する。 次元スケーリングアプローチは、その識別性を保ちながら表現の次元性を低減するために用いられる。 第2に、教師なし部で取得した潜伏特徴を用いてラベル付きトレーニングサンプルに基づいて分類器を学習する。 さらに,教師部における中心損失を利用して,クラス内の各点からその中心への埋め込み空間距離を最小化する。 このモデルはネットワークの両部分をエンドツーエンドで最適化する。 提案するsssaの性能は, 訓練段階でモデルでは確認されなかった被験者を対象に評価した。 評価には2つのベンチマークEEGベースのMIタスクデータセットを使用する。 その結果,SSDAは最先端の手法より優れており,少数のラベル付きトレーニングサンプルは強力な分類性能に十分であることがわかった。

Motor imagery (MI) classification based on electroencephalogram (EEG) is a widely-used technique in non-invasive brain-computer interface (BCI) systems. Since EEG recordings suffer from heterogeneity across subjects and labeled data insufficiency, designing a classifier that performs the MI independently from the subject with limited labeled samples would be desirable. To overcome these limitations, we propose a novel subject-independent semi-supervised deep architecture (SSDA). The proposed SSDA consists of two parts: an unsupervised and a supervised element. The training set contains both labeled and unlabeled data samples from multiple subjects. First, the unsupervised part, known as the columnar spatiotemporal auto-encoder (CST-AE), extracts latent features from all the training samples by maximizing the similarity between the original and reconstructed data. A dimensional scaling approach is employed to reduce the dimensionality of the representations while preserving their discriminability. Second, a supervised part learns a classifier based on the labeled training samples using the latent features acquired in the unsupervised part. Moreover, we employ center loss in the supervised part to minimize the embedding space distance of each point in a class to its center. The model optimizes both parts of the network in an end-to-end fashion. The performance of the proposed SSDA is evaluated on test subjects who were not seen by the model during the training phase. To assess the performance, we use two benchmark EEG-based MI task datasets. The results demonstrate that SSDA outperforms state-of-the-art methods and that a small number of labeled training samples can be sufficient for strong classification performance.
翻訳日:2024-02-18 13:02:31 公開日:2024-01-27
# 転校学習による家庭の廃棄物管理

Managing Household Waste through Transfer Learning ( http://arxiv.org/abs/2402.09437v1 )

ライセンス: Link先を確認
Suman Kunwar(参考訳) 世界は気候変動の課題に直面しているため、私たちが使っているテクノロジーの環境への影響を考えることが重要です。 本研究では,ガベージ分類のための各種トランスファー学習モデルの性能と計算量について検討する。 我々はMobileNet、ResNet50、ResNet101、EfficientNetV2SおよびEfficientNetV2Mモデルについて検討する。 以上の結果から,EfficientNetV2ファミリーは,f1スコア,IoU値が最も精度が高いことが示唆された。 しかし、効率の良いnetv2mモデルはより多くの時間を必要とし、高い二酸化炭素排出量を生み出す。 ResNet50は精度、リコール、f1スコア、IoUでResNet110より優れているが、炭素フットプリントは大きい。 EfficientNetV2Sは96.41%の精度で最も持続可能で正確なモデルである。 本研究は,ガベージ分類における機械学習モデルの生態的影響を検討することの重要性を強調する。

As the world continues to face the challenges of climate change, it is crucial to consider the environmental impact of the technologies we use. In this study, we investigate the performance and computational carbon emissions of various transfer learning models for garbage classification. We examine the MobileNet, ResNet50, ResNet101, and EfficientNetV2S and EfficientNetV2M models. Our findings indicate that the EfficientNetV2 family achieves the highest accuracy, recall, f1-score, and IoU values. However, the EfficientNetV2M model requires more time and produces higher carbon emissions. ResNet50 outperforms ResNet110 in terms of accuracy, recall, f1-score, and IoU, but it has a larger carbon footprint. We conclude that EfficientNetV2S is the most sustainable and accurate model with 96.41% accuracy. Our research highlights the significance of considering the ecological impact of machine learning models in garbage classification.
翻訳日:2024-02-18 13:02:02 公開日:2024-01-27
# ハードウェアphi-1.5b: ハードウェアドメイン固有の知識をエンコードする大規模言語モデル

Hardware Phi-1.5B: A Large Language Model Encodes Hardware Domain Specific Knowledge ( http://arxiv.org/abs/2402.01728v1 )

ライセンス: Link先を確認
Weimin Fu, Shijie Li, Yifang Zhao, Haocheng Ma, Raj Dutta, Xuan Zhang, Kaichen Yang, Yier Jin, Xiaolong Guo(参考訳) 研究開発、設計、検証、製造が複雑に結びついている急速に発展する半導体産業では、ハードウェア設計とセキュリティ検証に革命を起こす大きな言語モデルの可能性は非常に大きい。 しかし、最大の課題は、訓練前の段階で一般的に取得される自然言語やソフトウェアコード知識によって適切に対処されないハードウェア固有の問題の複雑さにある。 さらに、ハードウェアドメイン固有のデータセットの不足は、基礎モデルを開発する上で大きなハードルとなる。 本稿では,半導体産業のハードウェア分野に特化した革新的な大規模言語モデルであるハードウェアphi 1.5bを紹介する。 我々は,小,中,大サブセットからなる専門的,結合されたデータセットを開発し,メディアデータセットを用いた事前学習に重点を置いている。 このアプローチはPhi 1.5Bモデルのコンパクトだが効率的なアーキテクチャを利用する。 この最初の事前学習されたハードウェアドメイン特化大型言語モデルの作成は、ハードウェア設計と検証タスクのパフォーマンス向上と、半導体分野におけるaiアプリケーションへの有望な進路を示す、大きな進歩を示している。

In the rapidly evolving semiconductor industry, where research, design, verification, and manufacturing are intricately linked, the potential of Large Language Models to revolutionize hardware design and security verification is immense. The primary challenge, however, lies in the complexity of hardware specific issues that are not adequately addressed by the natural language or software code knowledge typically acquired during the pretraining stage. Additionally, the scarcity of datasets specific to the hardware domain poses a significant hurdle in developing a foundational model. Addressing these challenges, this paper introduces Hardware Phi 1.5B, an innovative large language model specifically tailored for the hardware domain of the semiconductor industry. We have developed a specialized, tiered dataset comprising small, medium, and large subsets and focused our efforts on pretraining using the medium dataset. This approach harnesses the compact yet efficient architecture of the Phi 1.5B model. The creation of this first pretrained, hardware domain specific large language model marks a significant advancement, offering improved performance in hardware design and verification tasks and illustrating a promising path forward for AI applications in the semiconductor sector.
翻訳日:2024-02-11 16:16:49 公開日:2024-01-27
# 多様なアイデアを促す: aiのアイデアの分散化

Prompting Diverse Ideas: Increasing AI Idea Variance ( http://arxiv.org/abs/2402.01727v1 )

ライセンス: Link先を確認
Lennart Meincke, Ethan R. Mollick, Christian Terwiesch(参考訳) 一貫性が重視される日常的なタスクとは異なり、創造性やイノベーションにおいて、目標は多様なアイデアを生み出すことだ。 本稿では、人工知能(AI)を活用したアイデア生成プロセスの生産性と品質を高めることへの関心の高まりについて述べる。 これまでの研究では、AIのアイデアの平均品質は非常に高いことが分かっていたが、以前の研究では、AIベースのブレインストーミングが、アイデアの十分な分散を生み出すことができないことも指摘されている。 本研究は,AI生成アイデアの分散性を高める方法を検討する。 gpt-4を用いて,コサインの類似性,独特なアイデアの数,アイデア空間が枯渇する速度に異なるプロンピング手法が与える影響について検討した。 私たちは、50ドル以下で、大学生向けの新しい製品開発を開発する領域でこれを行います。 この文脈では,(1)GPT-4が生成するアイデアのプールは,人体集団が生成するアイデアよりも多様性が低いこと(2)AIが生成するアイデアの多様性は,素早い工学を用いて著しく改善可能であること(3)CoT(Chain-of-Thought)の促進により,評価したすべてのプロンプトのアイデアの最も多様性が高く,人体集団が達成したものに近づいた。 また、我々が研究した任意のプロンプトの最も多くのユニークなアイデアを生成できた。

Unlike routine tasks where consistency is prized, in creativity and innovation the goal is to create a diverse set of ideas. This paper delves into the burgeoning interest in employing Artificial Intelligence (AI) to enhance the productivity and quality of the idea generation process. While previous studies have found that the average quality of AI ideas is quite high, prior research also has pointed to the inability of AI-based brainstorming to create sufficient dispersion of ideas, which limits novelty and the quality of the overall best idea. Our research investigates methods to increase the dispersion in AI-generated ideas. Using GPT-4, we explore the effect of different prompting methods on Cosine Similarity, the number of unique ideas, and the speed with which the idea space gets exhausted. We do this in the domain of developing a new product development for college students, priced under $50. In this context, we find that (1) pools of ideas generated by GPT-4 with various plausible prompts are less diverse than ideas generated by groups of human subjects (2) the diversity of AI generated ideas can be substantially improved using prompt engineering (3) Chain-of-Thought (CoT) prompting leads to the highest diversity of ideas of all prompts we evaluated and was able to come close to what is achieved by groups of human subjects. It also was capable of generating the highest number of unique ideas of any prompt we studied.
翻訳日:2024-02-11 16:16:17 公開日:2024-01-27
# AIにおける倫理境界の要塞化:大規模言語モデルにおけるセキュリティ強化のための高度な戦略

Fortifying Ethical Boundaries in AI: Advanced Strategies for Enhancing Security in Large Language Models ( http://arxiv.org/abs/2402.01725v1 )

ライセンス: Link先を確認
Yunhong He, Jianling Qiu, Wei Zhang, Zhengqing Yuan(参考訳) 大規模言語モデル(LLM)の最近の進歩は、自然言語処理と人工知能の能力を大幅に強化している。 GPT-3.5やLLaMA-2を含むこれらのモデルは、変換トランスフォーマーモデルによるテキスト生成、翻訳、質問応答タスクに革命をもたらした。 広く使われているにもかかわらず、LLMは、モデルに不適切な対応を強いられる場合の倫理的ジレンマ、フィッシング攻撃への感受性、プライバシー侵害などの課題を提示している。 本稿では,これらの課題に,以下を含む多角的アプローチを導入することで対処する。 1) ユーザ入力からセンシティブな語彙をフィルタリングして,非倫理的応答を防止する。 2)「プライソンブレイク」シナリオにつながる可能性のあるインタラクションを停止するためのロールプレイングの検出。 3)禁止コンテンツの発生を制限するためのカスタムルールエンジンの実装 4) これらの手法をMLLM(Multi-Model Large Language Models)のような様々なLLM誘導体に拡張する。 弊社のアプローチは、非倫理的な操作やプライバシー侵害からモデルを守るだけでなく、タスク間のハイパフォーマンスも維持する。 モデルの中核機能を損なうことなく,様々な攻撃プロンプト下での最先端性能を示す。 さらに、異なるセキュリティレベルを導入することで、ユーザーは個人情報の開示を制御できるようになる。 本手法は,技術の乱用による社会的リスクや紛争の低減,データ保護の強化,ソーシャルエクイティの促進に寄与する。 本研究は,質問応答システムの効率をユーザのプライバシと倫理的基準とバランスさせ,より安全なユーザエクスペリエンスを確保し,AI技術への信頼を高めるための枠組みを提供する。

Recent advancements in large language models (LLMs) have significantly enhanced capabilities in natural language processing and artificial intelligence. These models, including GPT-3.5 and LLaMA-2, have revolutionized text generation, translation, and question-answering tasks due to the transformative Transformer model. Despite their widespread use, LLMs present challenges such as ethical dilemmas when models are compelled to respond inappropriately, susceptibility to phishing attacks, and privacy violations. This paper addresses these challenges by introducing a multi-pronged approach that includes: 1) filtering sensitive vocabulary from user input to prevent unethical responses; 2) detecting role-playing to halt interactions that could lead to 'prison break' scenarios; 3) implementing custom rule engines to restrict the generation of prohibited content; and 4) extending these methodologies to various LLM derivatives like Multi-Model Large Language Models (MLLMs). Our approach not only fortifies models against unethical manipulations and privacy breaches but also maintains their high performance across tasks. We demonstrate state-of-the-art performance under various attack prompts, without compromising the model's core functionalities. Furthermore, the introduction of differentiated security levels empowers users to control their personal data disclosure. Our methods contribute to reducing social risks and conflicts arising from technological abuse, enhance data protection, and promote social equity. Collectively, this research provides a framework for balancing the efficiency of question-answering systems with user privacy and ethical standards, ensuring a safer user experience and fostering trust in AI technology.
翻訳日:2024-02-11 16:14:57 公開日:2024-01-27
# cerm: 感情分析による文脈認識文学の発見

CERM: Context-aware Literature-based Discovery via Sentiment Analysis ( http://arxiv.org/abs/2402.01724v1 )

ライセンス: Link先を確認
Julio Christian Young and Uchenna Akujuobi(参考訳) バイオメディカル出版物が豊富にあることから,食品と健康の関係を理解するための感情分析タスクを提案する。 レシピレコメンデーションと分析システムに健康を取り入れようとする以前の試みは、主に栄養成分やラベル付きデータに基づいて訓練された基本的な計算モデルに焦点をあてていた。 食品成分とバイオメディカル概念の関係を捉えた強化モデルは、バイオメディカルテキストの豊富な情報を考えると、食品関連研究にとってより有益である。 費用のかかるデータラベリングプロセスを考えると、これらのモデルはラベル付きデータとラベルなしデータの両方を効果的に利用する必要がある。 本稿では、エンティティペアに基づいてテキストの感情をキャプチャする新しいタスクであるエンティティ関係感分析(ERSA)を紹介する。 ERSAは、広く研究されているAspect Based Sentiment Analysis (ABSA)タスクを拡張している。 具体的には,バイオメディカルテキストに適用されたERSAタスクに焦点をあて,バイオメディカルおよび食品概念のペア(エンテント)に焦点を当てた。 ERSAは、文の感情がエンティティ関係の感情と一致しないため、従来の感情分析タスクと比較して大きな課題となる。 さらに,ERSAタスクのエンコーディングを強化するために,異なる単語埋め込みを組み合わせた半教師付きアーキテクチャCERMを提案する。 実験結果は、様々な学習シナリオにわたるモデルの効率を示す。

Driven by the abundance of biomedical publications, we introduce a sentiment analysis task to understand food-health relationship. Prior attempts to incorporate health into recipe recommendation and analysis systems have primarily focused on ingredient nutritional components or utilized basic computational models trained on curated labeled data. Enhanced models that capture the inherent relationship between food ingredients and biomedical concepts can be more beneficial for food-related research, given the wealth of information in biomedical texts. Considering the costly data labeling process, these models should effectively utilize both labeled and unlabeled data. This paper introduces Entity Relationship Sentiment Analysis (ERSA), a new task that captures the sentiment of a text based on an entity pair. ERSA extends the widely studied Aspect Based Sentiment Analysis (ABSA) task. Specifically, our study concentrates on the ERSA task applied to biomedical texts, focusing on (entity-entity) pairs of biomedical and food concepts. ERSA poses a significant challenge compared to traditional sentiment analysis tasks, as sentence sentiment may not align with entity relationship sentiment. Additionally, we propose CERM, a semi-supervised architecture that combines different word embeddings to enhance the encoding of the ERSA task. Experimental results showcase the model's efficiency across diverse learning scenarios.
翻訳日:2024-02-11 16:14:00 公開日:2024-01-27
# 中国の産業シナリオにおける大規模言語モデルの精度とロバスト性に関する実証的研究

An Empirical Study on Large Language Models in Accuracy and Robustness under Chinese Industrial Scenarios ( http://arxiv.org/abs/2402.01723v1 )

ライセンス: Link先を確認
Zongjie Li, Wenying Qiu, Pingchuan Ma, Yichen Li, You Li, Sijia He, Baozheng Jiang, Shuai Wang, Weixi Gu(参考訳) 近年、様々な領域で大規模言語モデル(LLM)の急速な発展が見られた。 多数の中国人ユーザーにサービスを提供するため、中国の多くの商業ベンダーはローカライズ戦略を採用し、中国ユーザー向けに特別にカスタマイズされた現地のllmを提供している。 さらに、今後のLLMの重要応用の1つは、これらの分野における企業やユーザによる工業生産の実践的展開である。 しかし, 産業シナリオにおけるLCMの精度と堅牢性はよく研究されていない。 本稿では,中国の工業生産分野におけるLCMの精度とロバスト性に関する総合的な実証的研究について述べる。 LLMの精度を評価するため、8つの異なる産業セクターから1200のドメイン固有の問題を手作業で収集した。 さらに,LLMのロバスト性を評価するために,4つの産業固有の安定性カテゴリと8つの能力を含むメタモルフィックテストフレームワークを設計した。 総じて,中国のベンダーが開発する9種類のllmと,グローバルベンダーが開発する4種類のllmを評価した。 主な知見は,(1)中国の産業環境でのLLMの精度は低く,全LLMのスコアは0.6未満である。 2)ロバスト性スコアは産業部門によって異なり,地域全体のllmは世界規模よりも低い。 3) LLMの堅牢性は能力によって大きく異なる。 グローバル LLM は論理関連変種の下ではより堅牢であり、先進的なローカル LLM は中国の産業用語の理解に関わる問題に対してより良い性能を発揮する。 本研究は, LLMの産業領域能力の理解と促進に, 開発と産業の両面から重要なガイダンスを提供するものである。 この結果は、研究の方向性とツールのサポートをさらに動機付ける。

Recent years have witnessed the rapid development of large language models (LLMs) in various domains. To better serve the large number of Chinese users, many commercial vendors in China have adopted localization strategies, training and providing local LLMs specifically customized for Chinese users. Furthermore, looking ahead, one of the key future applications of LLMs will be practical deployment in industrial production by enterprises and users in those sectors. However, the accuracy and robustness of LLMs in industrial scenarios have not been well studied. In this paper, we present a comprehensive empirical study on the accuracy and robustness of LLMs in the context of the Chinese industrial production area. We manually collected 1,200 domain-specific problems from 8 different industrial sectors to evaluate LLM accuracy. Furthermore, we designed a metamorphic testing framework containing four industrial-specific stability categories with eight abilities, totaling 13,631 questions with variants to evaluate LLM robustness. In total, we evaluated 9 different LLMs developed by Chinese vendors, as well as four different LLMs developed by global vendors. Our major findings include: (1) Current LLMs exhibit low accuracy in Chinese industrial contexts, with all LLMs scoring less than 0.6. (2) The robustness scores vary across industrial sectors, and local LLMs overall perform worse than global ones. (3) LLM robustness differs significantly across abilities. Global LLMs are more robust under logical-related variants, while advanced local LLMs perform better on problems related to understanding Chinese industrial terminology. Our study results provide valuable guidance for understanding and promoting the industrial domain capabilities of LLMs from both development and industrial enterprise perspectives. The results further motivate possible research directions and tooling support.
翻訳日:2024-02-11 16:13:38 公開日:2024-01-27
# 大規模言語モデルの性能向上による質問への回答と情報抽出の精度向上

Enhancing Large Language Model Performance To Answer Questions and Extract Information More Accurately ( http://arxiv.org/abs/2402.01722v1 )

ライセンス: Link先を確認
Liang Zhang, Katherine Jijo, Spurthi Setty, Eden Chung, Fatima Javid, Natan Vidra, Tommy Clifford(参考訳) 大規模言語モデル(llm)は質問に対する応答を生成するが、その有効性は、質問に正確な応答を与えるために、回答の最適品質や時々の失敗によってしばしば妨げられる。 これらの課題に対処するために、フィードバックとモデルを洗練するための例を含む微調整プロセスが採用されている。 目的は、コサイン類似性、LLM評価、ルージュ-Lスコアなどのメトリクスを活用して、継続的なフィードバックループを通じてAIモデルを強化することである。 GPT-3.5、GPT4ALL、LLaMA2といったLLMを活用して、このアプローチはファイナンスベンチやRAG Instruct Benchmark Tester Datasetといった金融データセット上でベンチマークされ、微調整の必要性が説明される。 その結果、ゼロショットLLMの精度を超越した微調整モデルの能力を示し、優れた質問と回答能力を提供する。 特に、LLMの微調整とRAG(Retrieval Augmented Generation)と呼ばれるプロセスの組み合わせは、精度を向上して応答を生成することを証明している。

Large Language Models (LLMs) generate responses to questions; however, their effectiveness is often hindered by sub-optimal quality of answers and occasional failures to provide accurate responses to questions. To address these challenges, a fine-tuning process is employed, involving feedback and examples to refine models. The objective is to enhance AI models through continuous feedback loops, utilizing metrics such as cosine similarity, LLM evaluation and Rouge-L scores to evaluate the models. Leveraging LLMs like GPT-3.5, GPT4ALL, and LLaMA2, and Claude, this approach is benchmarked on financial datasets, including the FinanceBench and RAG Instruct Benchmark Tester Dataset, illustrating the necessity of fine-tuning. The results showcase the capability of fine-tuned models to surpass the accuracy of zero-shot LLMs, providing superior question and answering capabilities. Notably, the combination of fine-tuning the LLM with a process known as Retrieval Augmented Generation (RAG) proves to generate responses with improved accuracy.
翻訳日:2024-02-11 16:13:09 公開日:2024-01-27
# ProtAgents:物理と機械学習を組み合わせた大規模言語モデルによるタンパク質発見

ProtAgents: Protein discovery via large language model multi-agent collaborations combining physics and machine learning ( http://arxiv.org/abs/2402.04268v1 )

ライセンス: Link先を確認
A. Ghafarollahi, M.J. Buehler(参考訳) 自然界で見られるものを超えてデ・ノボタンパク質を設計することは、科学と工学の両方の応用において大きな進歩をもたらす。 現在のタンパク質設計の方法論は、エンドツーエンドの問題に対処するサロゲートモデルなど、aiベースのモデルに依存することが多い。 しかし、これらのモデルは、しばしば特定の材料目標や構造特性に焦点を合わせ、設計プロセスや包括的なデータ分析にドメイン外の知識を組み込む場合の柔軟性を制限する必要がある。 本研究では,大規模言語モデル(llms)に基づくde novoタンパク質設計のためのプラットフォームであるprotagentsを紹介する。 エージェント開発における汎用性は、知識検索、タンパク質構造解析、物理ベースのシミュレーション、結果分析など様々な分野の専門知識を可能にする。 llmsによって強化されたエージェント間の動的なコラボレーションは、タンパク質設計と分析の問題に取り組むための汎用的なアプローチを提供する。 関心の問題は、新しいタンパク質の設計、タンパク質の構造の分析、物理シミュレーションによる新しい第一原理データ(自然振動周波数)の取得などだ。 このシステムの協調的な取り組みにより、ターゲットの機械的特性を持つde novoタンパク質の強力な自動的および相乗的設計が可能になる。 一方、エージェントを設計する柔軟性と、動的LLMベースのマルチエージェント環境による自律的なコラボレーション能力は、多目的材料問題に対処するLLMの大きなポテンシャルを解放し、自律的な材料発見と設計のための新たな道を開く。

Designing de novo proteins beyond those found in nature holds significant promise for advancements in both scientific and engineering applications. Current methodologies for protein design often rely on AI-based models, such as surrogate models that address end-to-end problems by linking protein structure to material properties or vice versa. However, these models frequently focus on specific material objectives or structural properties, limiting their flexibility when incorporating out-of-domain knowledge into the design process or comprehensive data analysis is required. In this study, we introduce ProtAgents, a platform for de novo protein design based on Large Language Models (LLMs), where multiple AI agents with distinct capabilities collaboratively address complex tasks within a dynamic environment. The versatility in agent development allows for expertise in diverse domains, including knowledge retrieval, protein structure analysis, physics-based simulations, and results analysis. The dynamic collaboration between agents, empowered by LLMs, provides a versatile approach to tackling protein design and analysis problems, as demonstrated through diverse examples in this study. The problems of interest encompass designing new proteins, analyzing protein structures and obtaining new first-principles data -- natural vibrational frequencies -- via physics simulations. The concerted effort of the system allows for powerful automated and synergistic design of de novo proteins with targeted mechanical properties. The flexibility in designing the agents, on one hand, and their capacity in autonomous collaboration through the dynamic LLM-based multi-agent environment on the other hand, unleashes great potentials of LLMs in addressing multi-objective materials problems and opens up new avenues for autonomous materials discovery and design.
翻訳日:2024-02-11 15:29:20 公開日:2024-01-27
# 音声のSigma-lognormal Modeling

Sigma-lognormal modeling of speech ( http://arxiv.org/abs/2401.17320v1 )

ライセンス: Link先を確認
C. Carmona-Duarte, M.A.Ferrer, R. Plamondon, A. Gomez-Rodellar, P. Gomez-Vilda(参考訳) 人間の運動研究と分析は、神経科学から教育、パターン認識からロボティクス、医療からスポーツまで、多くの科学分野において基礎的存在である。 従来の音声運動モデルでは、音声の運動がどのように生成され、あるパラメータが変化した場合に、結果がどう変化するかを理解することが提案されている。 しかし, 実際の連続音声から筋反応パラメータと年齢を導出する逆アプローチは, そのようなモデルでは不可能である。 その代わり、手書きの分野において、急速人間の運動の運動論的理論とそれに伴うシグマ・ログノーマルモデルが、筋反応パラメータを得るためにうまく適用されている。 本研究は、複雑な音声キネマティクスを簡易に研究、分析、再構成するために使用できる音声キネマティクスに基づくモデルを提案する。 高速ヒト運動の運動論的理論とそれに伴うシグマ対数正規モデルに基づく方法を用いて、発話に関与する神経筋ネットワークの漸近的インパルス応答を、神経運動指令に対する応答として記述し、パラメータ化する。 ホルマントから運動観察への変換を行うための方法も提示する。 英語) vtr timit database と (ドイツ語) saarbrucken voice database (年齢の異なる人を含む、喉頭病理の有無に関わらず) を用いて実験を行い、抽出されたパラメーターと加齢との関係と、急速人間の運動のキネマティックな理論を適用するのに必要な第1と第2のフォルマント間の比率を相関させた。 この結果は、音声キネマティクスのモデリングと理解における革新的な発展を促す。

Human movement studies and analyses have been fundamental in many scientific domains, ranging from neuroscience to education, pattern recognition to robotics, health care to sports, and beyond. Previous speech motor models were proposed to understand how speech movement is produced and how the resulting speech varies when some parameters are changed. However, the inverse approach, in which the muscular response parameters and the subject's age are derived from real continuous speech, is not possible with such models. Instead, in the handwriting field, the kinematic theory of rapid human movements and its associated Sigma-lognormal model have been applied successfully to obtain the muscular response parameters. This work presents a speech kinematics based model that can be used to study, analyze, and reconstruct complex speech kinematics in a simplified manner. A method based on the kinematic theory of rapid human movements and its associated Sigma lognormal model are applied to describe and to parameterize the asymptotic impulse response of the neuromuscular networks involved in speech as a response to a neuromotor command. The method used to carry out transformations from formants to a movement observation is also presented. Experiments carried out with the (English) VTR TIMIT database and the (German) Saarbrucken Voice Database, including people of different ages, with and without laryngeal pathologies, corroborate the link between the extracted parameters and aging, on the one hand, and the proportion between the first and second formants required in applying the kinematic theory of rapid human movements, on the other. The results should drive innovative developments in the modeling and understanding of speech kinematics.
翻訳日:2024-02-01 16:52:50 公開日:2024-01-27
# 手作業によるvrの親密性検出のための深層ネットワーク評価

Evaluating Deep Networks for Detecting User Familiarity with VR from Hand Interactions ( http://arxiv.org/abs/2401.16443v1 )

ライセンス: Link先を確認
Mingjun Li, Numan Zafar, Natasha Kholgade Banerjee, Sean Banerjee(参考訳) VRデバイスが消費者の世界で普及するにつれ、VRアプリケーションの利用は、VRに慣れていないユーザーがますます多くなっている。 インタラクション媒体としてのvrによるユーザの親しみ度レベルの検出は、アクリマティゼーションのためのオンデマンドトレーニングを提供する可能性を提供し、タスクの達成において、ユーザがvr環境に負担されるのを防止する。 本研究では,vrドアをアンロックするために,数値パスコード入力パネルと対話するユーザのハンドトラッキングを用いて,vrへの親密度の自動検出を行うために,深層分類器を用いた予備的な結果を示す。 会議室やオフィス、クリニックなど、共同の仮想空間への入り口として、私たちはVRドアを使用します。 VRに慣れていないユーザーは、現実世界のパスコード入力パネルでドアを開けるために手を使っていただろう。 したがって、ユーザーはVRに慣れていないかもしれないが、ドアを開ける作業に精通しているだろう。 vrに精通した7名と、vrに精通していない7名からなるパイロットデータセットを用いて、残りの8名のユーザからのデータを用いて訓練された分類器を用いて、6名のテストユーザ、3名、および3名の見慣れないユーザによる最高精度の88.03\%を取得する。 本研究は,ユーザ移動データを用いて,セキュアなパスコードベースアクセスの単純かつ重要なタスクの親近性を検出する可能性を示す。

As VR devices become more prevalent in the consumer space, VR applications are likely to be increasingly used by users unfamiliar with VR. Detecting the familiarity level of a user with VR as an interaction medium provides the potential of providing on-demand training for acclimatization and prevents the user from being burdened by the VR environment in accomplishing their tasks. In this work, we present preliminary results of using deep classifiers to conduct automatic detection of familiarity with VR by using hand tracking of the user as they interact with a numeric passcode entry panel to unlock a VR door. We use a VR door as we envision it to the first point of entry to collaborative virtual spaces, such as meeting rooms, offices, or clinics. Users who are unfamiliar with VR will have used their hands to open doors with passcode entry panels in the real world. Thus, while the user may not be familiar with VR, they would be familiar with the task of opening the door. Using a pilot dataset consisting of 7 users familiar with VR, and 7 not familiar with VR, we acquire highest accuracy of 88.03\% when 6 test users, 3 familiar and 3 not familiar, are evaluated with classifiers trained using data from the remaining 8 users. Our results indicate potential for using user movement data to detect familiarity for the simple yet important task of secure passcode-based access.
翻訳日:2024-01-31 17:40:02 公開日:2024-01-27
# FaKnow:フェイクニュース検出のための統一ライブラリ

FaKnow: A Unified Library for Fake News Detection ( http://arxiv.org/abs/2401.16441v1 )

ライセンス: Link先を確認
Yiyuan Zhu, Yongjun Li, Jialiang Wang, Ming Gao, Jiali Wei(参考訳) 過去数年間、ディープラーニングに基づく偽ニュース検出アルゴリズムが多数登場している。 しかし、それらはしばしば異なるフレームワークの下で開発され、それぞれ異なる利用方法を管理し、結果として再現性を妨げる。 さらに、大量の冗長性は、このような偽ニュース検出モデルのコード開発を特徴付ける。 これらの問題に対処するために,統合的で包括的な偽ニュース検出アルゴリズムライブラリであるFaKnowを提案する。 広く使われている偽ニュース検出モデルを含んでおり、コンテンツベースとソーシャルコンテキストベースのアプローチに分類される。 このライブラリは、モデルトレーニングと評価プロセスの完全なスペクトルをカバーし、統一されたフレームワーク内でデータ、モデル、トレーニング手順を効果的に整理する。 さらに、視覚化やロギングなど、一連の補助機能やツールも備えている。 本研究は,偽ニュース検出研究の標準化と統一に寄与し,この分野の研究者の努力を促進する。 オープンソースのコードとドキュメントは、それぞれhttps://github.com/npurg/faknowとhttps://faknow.readthedocs.ioでアクセスできる。

Over the past years, a large number of fake news detection algorithms based on deep learning have emerged. However, they are often developed under different frameworks, each mandating distinct utilization methodologies, consequently hindering reproducibility. Additionally, a substantial amount of redundancy characterizes the code development of such fake news detection models. To address these concerns, we propose FaKnow, a unified and comprehensive fake news detection algorithm library. It encompasses a variety of widely used fake news detection models, categorized as content-based and social context-based approaches. This library covers the full spectrum of the model training and evaluation process, effectively organizing the data, models, and training procedures within a unified framework. Furthermore, it furnishes a series of auxiliary functionalities and tools, including visualization, and logging. Our work contributes to the standardization and unification of fake news detection research, concurrently facilitating the endeavors of researchers in this field. The open-source code and documentation can be accessed at https://github.com/NPURG/FaKnow and https://faknow.readthedocs.io, respectively.
翻訳日:2024-01-31 17:39:35 公開日:2024-01-27
# 逸脱予測を超えて:局所時空間公開記録を活用して行動を起こす

Beyond Eviction Prediction: Leveraging Local Spatiotemporal Public Records to Inform Action ( http://arxiv.org/abs/2401.16440v1 )

ライセンス: Link先を確認
Tasfia Mashiat, Alex DiChristofano, Patrick J. Fowler, Sanmay Das(参考訳) 近年,エヴィクションリスクに基づく得点特性への関心が高まっている。 推定法の成功は、通常、予測精度の異なる尺度を用いて評価される。 しかし、このような予測の根底にある目標は、よりリスクの高い家庭に適切な支援を施すことであり、安定して保管されることである。 したがって、このような予測がアウトリーチの取り組みをターゲットとして、アクションを伝えるのにどの程度有用か、という疑問を問う必要がある。 本稿では,プロパティやエヴィゲーション,所有者に関する情報にマッチする新しいデータセットを用いて,この問題を考察する。 我々はリスクスコアを作成するために退行予測タスクを行い、これらのリスクスコアを使用して目標のアウトリーチポリシーを計画する。 リスクスコアは実際に有用であることを示し,近年の退去の歴史を持つ建物に焦点をあてるアウトリーチ政策と比較して,ケースワーナーの理論的チームが同じ時間内に退去のリスク特性に到達できるようにする。 また,リスク予測と目標アウトリーチの両面において,地域・所有権の特徴の重要性についても論じる。

There has been considerable recent interest in scoring properties on the basis of eviction risk. The success of methods for eviction prediction is typically evaluated using different measures of predictive accuracy. However, the underlying goal of such prediction is to direct appropriate assistance to households that may be at greater risk so they remain stably housed. Thus, we must ask the question of how useful such predictions are in targeting outreach efforts - informing action. In this paper, we investigate this question using a novel dataset that matches information on properties, evictions, and owners. We perform an eviction prediction task to produce risk scores and then use these risk scores to plan targeted outreach policies. We show that the risk scores are, in fact, useful, enabling a theoretical team of caseworkers to reach more eviction-prone properties in the same amount of time, compared to outreach policies that are either neighborhood-based or focus on buildings with a recent history of evictions. We also discuss the importance of neighborhood and ownership features in both risk prediction and targeted outreach.
翻訳日:2024-01-31 17:39:19 公開日:2024-01-27
# ガウスデータに対する統計的サブグループフェアネスの多項式時間監査

Polynomial time auditing of statistical subgroup fairness for Gaussian data ( http://arxiv.org/abs/2401.16439v1 )

ライセンス: Link先を確認
Daniel Hsu, Jizhou Huang, Brendan Juba(参考訳) 統計的サブグループフェアネスの概念を用いた監査分類器の問題について検討する。 kearns et al. (2018) は、組合せ的部分群を公正に監査する問題は無知な学習と同じくらい難しいことを示した。 本質的に、サブグループに対する差別の統計的尺度の修正に取り組んでいるすべての作業は、効率的なアルゴリズムが知られていないにもかかわらず、この問題に対するオラクルへのアクセスを前提にしている。 データ分布がガウスあるいは単に対数凹であるとするならば、最近の研究でハーフスペースの効率的な非依存学習アルゴリズムが発見された。 残念なことに、Kearnsらによるブースティングスタイルの削減は、たとえ元のデータ分布が同じであっても、ログコンケーブでないかもしれない再重み付き分布を成功させるためには、無知の学習アルゴリズムが必要だった。 本研究では,ガウス分布の監査について,肯定的かつ否定的な結果を与える: 正の面では,これらの進歩を不可知学習で活用し,非自明な組合せ的部分群フェアネスを監査するための最初の多項式時間近似スキーム(PTAS)を得るための代替アプローチとして,ガウス的半空間部分群に対する等質性に対する統計的概念の監査方法を示す。 負の面では、暗号の仮定の下では、一般半空間部分群に対するガウス的特徴分布の下でも多項式時間アルゴリズムはいかなる非自明な監査も保証できない。

We study the problem of auditing classifiers with the notion of statistical subgroup fairness. Kearns et al. (2018) has shown that the problem of auditing combinatorial subgroups fairness is as hard as agnostic learning. Essentially all work on remedying statistical measures of discrimination against subgroups assumes access to an oracle for this problem, despite the fact that no efficient algorithms are known for it. If we assume the data distribution is Gaussian, or even merely log-concave, then a recent line of work has discovered efficient agnostic learning algorithms for halfspaces. Unfortunately, the boosting-style reductions given by Kearns et al. required the agnostic learning algorithm to succeed on reweighted distributions that may not be log-concave, even if the original data distribution was. In this work, we give positive and negative results on auditing for the Gaussian distribution: On the positive side, we an alternative approach to leverage these advances in agnostic learning and thereby obtain the first polynomial-time approximation scheme (PTAS) for auditing nontrivial combinatorial subgroup fairness: we show how to audit statistical notions of fairness over homogeneous halfspace subgroups when the features are Gaussian. On the negative side, we find that under cryptographic assumptions, no polynomial-time algorithm can guarantee any nontrivial auditing, even under Gaussian feature distributions, for general halfspace subgroups.
翻訳日:2024-01-31 17:39:00 公開日:2024-01-27
# 有限次元量子系に対するブロッホベクトル形式論

The Bloch vectors formalism for a finite-dimensional quantum system ( http://arxiv.org/abs/2102.11829v3 )

ライセンス: Link先を確認
Elena R. Loubenets and Maxim S. Kulakov(参考訳) 本稿では,任意の有限次元量子系に対するブロッホベクトル形式論の主要な問題を一貫して発展させる。 この形式主義の枠組みでは、qudit状態とその時間における進化において、qudit可観測性とその期待、絡み合い、非局所性などは、ブロッホベクトル -- ユークリッド空間のベクトル $\mathbb{r}^{d^{2}-1}$ によって表現され、可観測性と異なる作用素基底における状態の分解によって生じる。 この形式の中で、すべての$d\geq2$ をトレースレスqudit可観測集合のブロッホベクトルの集合に指定し、その性質を記述する。また、純粋かつ混合なqudit状態のブロッホベクトルの集合を、これらの集合の一般性を明確に明記し、すべての$d\geq2$の統一形式を持つ作用素ノルムの観点で、新しいコンパクト表現を見つける。 一般化されたゲルマン表現の下でのクロイト状態のブロッホベクトルの集合に対して、これらの一般性は代数方程式の系を通じてこれらの集合の既知の同値な仕様から解析的に抽出することはできない。 qudit 状態のブロッホベクトルの時間発展を記述する一般的な方程式は、qudit 系が分離され、開である場合と、ブロッホベクトルの進化の時間的主性質がどちらの場合にも見出される場合に導かれる。 次元 $d_{1}\times d_{2}$ の純粋な二部状態に対しては、その減少状態に対するブロッホベクトルの観点からその絡み合いを定量化する。 導入された一般形式論は、量子系の性質の理論解析や量子応用、特に最適な量子制御において重要である。なぜならば、ユークリッド空間のベクトルによって状態が記述される系では、最適制御、解析、数値の方法が良く開発されているからである。

In the present article, we consistently develop the main issues of the Bloch vectors formalism for an arbitrary finite-dimensional quantum system. In the frame of this formalism, qudit states and their evolution in time, qudit observables and their expectations, entanglement and nonlocality, etc. are expressed in terms of the Bloch vectors -- the vectors in the Euclidean space $\mathbb{R}^{d^{2}-1}$ arising under decompositions of observables and states in different operator bases. Within this formalism, we specify for all $d\geq2$ the set of Bloch vectors of traceless qudit observables and describe its properties; also, find for the sets of the Bloch vectors of qudit states, pure and mixed, the new compact expressions in terms of the operator norms that explicitly reveal the general properties of these sets and have the unified form for all $d\geq2$. For the sets of the Bloch vectors of qudit states under the generalized Gell-Mann representation, these general properties cannot be analytically extracted from the known equivalent specifications of these sets via the system of algebraic equations. We derive the general equations describing the time evolution of the Bloch vector of a qudit state if a qudit system is isolated and if it is open and find for both cases the main properties of the Bloch vector evolution in time. For a pure bipartite state of a dimension $d_{1}\times d_{2}$, we quantify its entanglement in terms of the Bloch vectors for its reduced states. The introduced general formalism is important both for the theoretical analysis of quantum system properties and for quantum applications, in particular, for optimal quantum control, since, for systems where states are described by vectors in the Euclidean space, the methods of optimal control, analytical and numerical, are well developed.
翻訳日:2024-01-31 03:06:23 公開日:2024-01-27
# 因果対称モデルにおける確率と確実性

Probabilities and certainties within a causally symmetric model ( http://arxiv.org/abs/2112.10022v4 )

ライセンス: Link先を確認
Roderick Sutherland(参考訳) 本論文は, 慣れ親しんだド・ブロイ=ボーム解釈の因果対称版に関するものである。このバージョンでは, 空間的非局所性と, 元のモデルの構成空間オントロジーは, レトロカウシリティの追加によって避けることができる。 この代替式化の2つの異なる特徴を考察する。 確率に関して、このモデルはボームの元々の定式化と同一のボルン則の導出を与えることが示されている。 この導出は、単粒子の場合と同様に多粒子の絡み合った状態でも成り立つ。 確実性」に関して、粒子スピンの記述はモデル内で検討され、通常の初期状態に加えて最終境界条件が指定されると、統計的な記述は不要となり、その粒子は中間時間に全てのスピン成分に対して定値(ただし隠蔽)を持つ。 これらの値は、単一の基礎となるスピンベクトルの成分である。 2粒子の絡み合ったスピン状態のケースについても検討し, 後続的な側面から各粒子が他の粒子とは独立に絡み合う間, それぞれが独自のスピンを持つことが明らかとなった。 この図の定式化において、そのような現実的なモデルがベルの定理の面においてローレンツ不変性を保ち、好ましい参照フレームの必要性を避けることができることを示す。

This paper is concerned with the causally symmetric version of the familiar de Broglie-Bohm interpretation, this version allowing the spacelike nonlocality and the configuration space ontology of the original model to be avoided via the addition of retrocausality. Two different features of this alternative formulation are considered here. With regard to probabilities, it is shown that the model provides a derivation of the Born rule identical to that in Bohm's original formulation. This derivation holds just as well for a many-particle, entangled state as for a single particle. With regard to "certainties", the description of a particles spin is examined within the model and it is seen that a statistical description is no longer necessary once final boundary conditions are specified in addition to the usual initial state, with the particle then possessing a definite (but hidden) value for every spin component at intermediate times. These values are consistent with being the components of a single, underlying spin vector. The case of a two-particle entangled spin state is also examined and it is found that, due to the retrocausal aspect, each particle possesses its own definite spin during the entanglement, independent of the other particle. In formulating this picture, it is demonstrated how such a realistic model can preserve Lorentz invariance in the face of Bell's theorem and avoid the need for a preferred reference frame.
翻訳日:2024-01-31 01:29:01 公開日:2024-01-27
# トーナメントソリューションのクエリー複雑性

Query Complexity of Tournament Solutions ( http://arxiv.org/abs/1611.06189v4 )

ライセンス: Link先を確認
Arnab Maiti and Palash Dey(参考訳) すべての頂点の対の間にちょうど1つの辺が存在する有向グラフは、 {\em tournament} と呼ばれる。 トーナメントの「最高の」頂点集合を見つけることは、社会的選択理論においてよく研究されている問題である。 トーナメントソリューションは、入力としてトーナメントを受け取り、入力トーナメントの頂点のサブセットを出力する。 しかし、例えば、与えられた薬物群から最高の薬物群を選択するなど、多くの応用において、トーナメントのエッジは暗黙的にのみ与えられ、エッジの向きを知ることはコストがかかる。 このようなシナリオでは、最小限のエッジを"クエリ"することで、最高の頂点セット(トーナメントソリューションによっては)を知りたいと思っています。 本稿では,トーナメントTのエッジへのオラクルアクセスが与えられた場合,トーナメントソリューションfに対して,できるだけ少数のエッジを問合せして$f(T)$を求める。 最初に、トーナメントにおけるコンドルセットの非ロッサー集合は、2n-\lfloor \log n \rfloor -2$ edgeのみを問うことで見つけることができ、これは、コンドルセットの非ロッサー集合を見つけるアルゴリズムが少なくとも2n-\lfloor \log n \rfloor -2$ edgesを問う必要があるという意味において厳密である。 その後、他の人気のあるトーナメントソリューションを研究し、コープランドセット、スレーターセット、マルコフセット、二パルチザンセット、暴露セット、バンクセット、トップサイクルを見つけるアルゴリズムが最悪の場合には$\omega(n^2)$ edgesをクエリする必要があることを示した。 正の面では、入力トーナメントの最上位サイクルのサイズが最大$k$であるなら、$o(nk + \frac{n\log n}{\log(1-\frac{1}{k})})$エッジのみをクエリすることで、上記のすべてのトーナメントソリューションを見つけることができる、という証明によって、クエリの複雑さの低さを回避できる。

A directed graph where there is exactly one edge between every pair of vertices is called a {\em tournament}. Finding the "best" set of vertices of a tournament is a well studied problem in social choice theory. A {\em tournament solution} takes a tournament as input and outputs a subset of vertices of the input tournament. However, in many applications, for example, choosing the best set of drugs from a given set of drugs, the edges of the tournament are given only implicitly and knowing the orientation of an edge is costly. In such scenarios, we would like to know the best set of vertices (according to some tournament solution) by "querying" as few edges as possible. We, in this paper, precisely study this problem for commonly used tournament solutions: given an oracle access to the edges of a tournament T, find $f(T)$ by querying as few edges as possible, for a tournament solution f. We first show that the set of Condorcet non-losers in a tournament can be found by querying $2n-\lfloor \log n \rfloor -2$ edges only and this is tight in the sense that every algorithm for finding the set of Condorcet non-losers needs to query at least $2n-\lfloor \log n \rfloor -2$ edges in the worst case, where $n$ is the number of vertices in the input tournament. We then move on to study other popular tournament solutions and show that any algorithm for finding the Copeland set, the Slater set, the Markov set, the bipartisan set, the uncovered set, the Banks set, and the top cycle must query $\Omega(n^2)$ edges in the worst case. On the positive side, we are able to circumvent our strong query complexity lower bound results by proving that, if the size of the top cycle of the input tournament is at most $k$, then we can find all the tournament solutions mentioned above by querying $O(nk + \frac{n\log n}{\log(1-\frac{1}{k})})$ edges only.
翻訳日:2024-01-31 01:26:00 公開日:2024-01-27
# 部分ラベル付きマルチラベル画像認識のためのデュアル・パースペクティブ・セマンティクス・アウェア表現ブレンド

Dual-Perspective Semantic-Aware Representation Blending for Multi-Label Image Recognition with Partial Labels ( http://arxiv.org/abs/2205.13092v3 )

ライセンス: Link先を確認
Tao Pu, Tianshui Chen, Hefeng Wu, Yukai Shi, Zhijing Yang, Liang Lin(参考訳) 目覚ましい進歩にもかかわらず、現在のマルチラベル画像認識(MLR)アルゴリズムは、完全なラベルを持つ大規模なデータセットに大きく依存しているため、大規模なデータセットの収集は非常に時間がかかり、労力がかかる。 部分ラベル付きマルチラベル画像認識モデル(MLR-PL)の訓練は、一部のラベルのみが知られ、他のラベルは各画像について不明である別の方法である。 しかし、現在のmlp-plアルゴリズムは、事前訓練された画像類似性モデルに依存するか、画像分類モデルを反復的に更新して未知ラベルの擬似ラベルを生成する。 したがって、一定の量のアノテーションに依存し、特に既知のラベル比率が低い場合、必然的にパフォーマンス低下に悩まされる。 このジレンマに対処するために、未知のラベルを補うために既知のラベルの情報を転送するために、異なる画像間で多粒度カテゴリ固有の意味表現をブレンドする二重パースペクティブな意味認識表現ブレンディング(DSRB)を提案する。 特に、IPRBモジュールは、既知のラベルの表現と対応する未知のラベルの表現を別の画像にブレンドして、これらの未知のラベルを補完するように設計されている。 一方、各カテゴリのより安定した表現プロトタイプを学習するために、PPRBモジュールを導入し、未知ラベルの表現と対応するラベルのプロトタイプを、位置情報に敏感な方法でブレンドして、これらの未知ラベルを補完する。 MS-COCO、Visual Genome、Pascal VOC 2007データセットに対する大規模な実験により、提案されたDSRBは、既知のすべてのラベルの比率設定において、常に最先端のアルゴリズムより優れていることが示された。

Despite achieving impressive progress, current multi-label image recognition (MLR) algorithms heavily depend on large-scale datasets with complete labels, making collecting large-scale datasets extremely time-consuming and labor-intensive. Training the multi-label image recognition models with partial labels (MLR-PL) is an alternative way, in which merely some labels are known while others are unknown for each image. However, current MLP-PL algorithms rely on pre-trained image similarity models or iteratively updating the image classification models to generate pseudo labels for the unknown labels. Thus, they depend on a certain amount of annotations and inevitably suffer from obvious performance drops, especially when the known label proportion is low. To address this dilemma, we propose a dual-perspective semantic-aware representation blending (DSRB) that blends multi-granularity category-specific semantic representation across different images, from instance and prototype perspective respectively, to transfer information of known labels to complement unknown labels. Specifically, an instance-perspective representation blending (IPRB) module is designed to blend the representations of the known labels in an image with the representations of the corresponding unknown labels in another image to complement these unknown labels. Meanwhile, a prototype-perspective representation blending (PPRB) module is introduced to learn more stable representation prototypes for each category and blends the representation of unknown labels with the prototypes of corresponding labels, in a location-sensitive manner, to complement these unknown labels. Extensive experiments on the MS-COCO, Visual Genome, and Pascal VOC 2007 datasets show that the proposed DSRB consistently outperforms current state-of-the-art algorithms on all known label proportion settings.
翻訳日:2024-01-31 01:19:37 公開日:2024-01-27
# 部分ラベルを用いた複数ラベル認識のための異種意味伝達

Heterogeneous Semantic Transfer for Multi-label Recognition with Partial Labels ( http://arxiv.org/abs/2205.11131v3 )

ライセンス: Link先を確認
Tianshui Chen, Tao Pu, Lingbo Liu, Yukai Shi, Zhijing Yang, Liang Lin(参考訳) 部分ラベル付きマルチラベル画像認識(MLR-PL)では,各画像に未知なラベルがある場合,アノテーションのコストを大幅に削減し,大規模なMLRを実現する。 これらの相関関係は、既知のラベルが持つ知識を伝達して未知のラベルを検索し、MLR-PLタスクの性能を向上させるのに役立つ(図1参照)。 本研究では,画像内および画像間の意味相関を探索し,未知ラベルに対する擬似ラベルを生成するために,未知ラベルの知識を転送する2つの相補的トランスファーモジュールからなる,新しいヘテロジニアス・セマンティクス・トランスファー(hst)フレームワークを提案する。 具体的には、画像内意味伝達(ist)モジュールが画像毎に画像固有のラベル共起行列を学習し、既知のラベルをマップしてこれらの行列に基づいて未知のラベルを補完する。 さらに、クロスイメージトランスファー(CST)モジュールは、カテゴリ固有の特徴-プロトタイプの類似性を学習し、対応するプロトタイプと高い類似度を持つ未知のラベルを補完する。 最後に、既知のおよび生成された擬似ラベルは、MLRモデルのトレーニングに使用される。 Microsoft COCO、Visual Genome、Pascal VOC 2007データセットで実施された大規模な実験は、提案されたHSTフレームワークが現在の最先端アルゴリズムよりも優れたパフォーマンスを達成することを示している。 具体的には、これまで開発されてきたアルゴリズムの結果より、平均精度(map)が1.4%、3.3%、0.4%向上した。

Multi-label image recognition with partial labels (MLR-PL), in which some labels are known while others are unknown for each image, may greatly reduce the cost of annotation and thus facilitate large-scale MLR. We find that strong semantic correlations exist within each image and across different images, and these correlations can help transfer the knowledge possessed by the known labels to retrieve the unknown labels and thus improve the performance of the MLR-PL task (see Figure 1). In this work, we propose a novel heterogeneous semantic transfer (HST) framework that consists of two complementary transfer modules that explore both within-image and cross-image semantic correlations to transfer the knowledge possessed by known labels to generate pseudo labels for the unknown labels. Specifically, an intra-image semantic transfer (IST) module learns an image-specific label co-occurrence matrix for each image and maps the known labels to complement the unknown labels based on these matrices. Additionally, a cross-image transfer (CST) module learns category-specific feature-prototype similarities and then helps complement the unknown labels that have high degrees of similarity with the corresponding prototypes. Finally, both the known and generated pseudo labels are used to train MLR models. Extensive experiments conducted on the Microsoft COCO, Visual Genome, and Pascal VOC 2007 datasets show that the proposed HST framework achieves superior performance to that of current state-of-the-art algorithms. Specifically, it obtains mean average precision (mAP) improvements of 1.4%, 3.3%, and 0.4% on the three datasets over the results of the best-performing previously developed algorithm.
翻訳日:2024-01-31 01:19:01 公開日:2024-01-27
# ブラックボックス最適化のための生成的進化戦略

Generative Evolutionary Strategy For Black-Box Optimizations ( http://arxiv.org/abs/2205.03056v4 )

ライセンス: Link先を確認
Changhwi Park(参考訳) 多くの科学的・技術的問題は最適化に関連している。 特に高次元空間におけるブラックボックス最適化は特に困難である。 最近のニューラルネットワークに基づくブラックボックス最適化研究は、注目すべき成果を示している。 しかし、高次元探索空間におけるそれらの能力はまだ限られている。 本研究では,進化戦略(ES)と生成ニューラルネットワーク(GNN)モデルに基づくブラックボックス最適化手法を提案する。 我々はESとGNNモデルが協調して動作するようにアルゴリズムを設計した。 このハイブリッドモデルは、サロゲートネットワークの信頼性の高いトレーニングを可能にし、多目的、高次元、確率的ブラックボックス関数を最適化する。 本手法は,esおよびベイズ最適化を含むベースライン最適化手法を上回っている。

Many scientific and technological problems are related to optimization. Among them, black-box optimization in high-dimensional space is particularly challenging. Recent neural network-based black-box optimization studies have shown noteworthy achievements. However, their capability in high-dimensional search space is still limited. This study proposes a black-box optimization method based on the evolution strategy (ES) and the generative neural network (GNN) model. We designed the algorithm so that the ES and the GNN model work cooperatively. This hybrid model enables reliable training of surrogate networks; it optimizes multi-objective, high-dimensional, and stochastic black-box functions. Our method outperforms baseline optimization methods in this experiment, including ES, and Bayesian optimization.
翻訳日:2024-01-31 01:18:31 公開日:2024-01-27
# フェデレートラーニングのためのエッジにおける費用対効果とリソース対応アグリゲーション

Towards cost-effective and resource-aware aggregation at Edge for Federated Learning ( http://arxiv.org/abs/2204.07767v2 )

ライセンス: Link先を確認
Ahmad Faraz Khan, Yuze Li, Xinran Wang, Sabaat Haroon, Haider Ali, Yue Cheng, Ali R. Butt, and Ali Anwar(参考訳) Federated Learning(FL)は、ソースのデータ計算によるプライバシとデータ転送コストに対処する機械学習アプローチである。 FLのアグリゲータサーバが通信コストを削減するためにリソースをカプセル化したエッジデータセンタにあるエッジとIoTアプリケーションでは特に人気があります。 既存のクラウドベースのアグリゲータソリューションは、Edgeではリソース非効率でコストがかかるため、スケーラビリティが低く、レイテンシも高い。 これらの課題に対処するため、IoTおよびEdgeアプリケーションの要求の変化の下で、事前および新しいアグリゲーション方法論を比較した。 この作業はEdgeに適応的なFLアグリゲータを提案し、ユーザはコストと効率のトレードオフを管理することができる。 広範な比較分析によって、設計によってスケーラビリティが最大4倍向上し、時間効率が8倍向上し、既存のクラウドベースの静的方法論と比較して2倍以上のコスト削減が示されている。

Federated Learning (FL) is a machine learning approach that addresses privacy and data transfer costs by computing data at the source. It's particularly popular for Edge and IoT applications where the aggregator server of FL is in resource-capped edge data centers for reducing communication costs. Existing cloud-based aggregator solutions are resource-inefficient and expensive at the Edge, leading to low scalability and high latency. To address these challenges, this study compares prior and new aggregation methodologies under the changing demands of IoT and Edge applications. This work is the first to propose an adaptive FL aggregator at the Edge, enabling users to manage the cost and efficiency trade-off. An extensive comparative analysis demonstrates that the design improves scalability by up to 4X, time efficiency by 8X, and reduces costs by more than 2X compared to extant cloud-based static methodologies.
翻訳日:2024-01-31 01:18:22 公開日:2024-01-27
# 線形および非線形微分方程式に対する改良量子アルゴリズム

Improved quantum algorithms for linear and nonlinear differential equations ( http://arxiv.org/abs/2202.01054v4 )

ライセンス: Link先を確認
Hari Krovi(参考訳) 非均一線型および非線形常微分方程式 (ODE) の先行研究に対して, 量子アルゴリズムを実質的に一般化し, 改良した。 具体的には、行列のノルムが線形なodeに対する量子アルゴリズムの実行時間を指数関数的に特徴付けし、より広い種類の線形および非線形odeへの応用への扉を開く方法を示す。 Berry et al. (2017) では、ある種類の線形ODEに対する量子アルゴリズムが与えられ、関連する行列は対角化可能である必要がある。 ここで示される線形 ode の量子アルゴリズムは、非対角化行列の多くのクラスに拡張される。 ここでのアルゴリズムは、ダイアゴナブル行列のあるクラスに対してberry et al. (2017) によって導かれる境界よりも指数関数的に高速である。 この線形odeアルゴリズムは、カールマン線形化を用いた非線形微分方程式に適用される(liu et al., (2021))。 その結果に対する改善は2倍です。 まず、エラーに対する指数的に優れた依存を得る。 この種の誤差の対数依存性は、xue et al. (2021) によっても達成されているが、等質非線形方程式のみである。 第二に、このアルゴリズムは、負の対数ノルム(非対角化行列を含む)を持つ場合、任意のスパースで可逆行列(散逸をモデル化する)を扱えるが、Liu et al., (2021) および Xue et al., (2021) は、さらに正規性を必要とする。

We present substantially generalized and improved quantum algorithms over prior work for inhomogeneous linear and nonlinear ordinary differential equations (ODE). Specifically, we show how the norm of the matrix exponential characterizes the run time of quantum algorithms for linear ODEs opening the door to an application to a wider class of linear and nonlinear ODEs. In Berry et al., (2017), a quantum algorithm for a certain class of linear ODEs is given, where the matrix involved needs to be diagonalizable. The quantum algorithm for linear ODEs presented here extends to many classes of non-diagonalizable matrices. The algorithm here is also exponentially faster than the bounds derived in Berry et al., (2017) for certain classes of diagonalizable matrices. Our linear ODE algorithm is then applied to nonlinear differential equations using Carleman linearization (an approach taken recently by us in Liu et al., (2021)). The improvement over that result is two-fold. First, we obtain an exponentially better dependence on error. This kind of logarithmic dependence on error has also been achieved by Xue et al., (2021), but only for homogeneous nonlinear equations. Second, the present algorithm can handle any sparse, invertible matrix (that models dissipation) if it has a negative log-norm (including non-diagonalizable matrices), whereas Liu et al., (2021) and Xue et al., (2021) additionally require normality.
翻訳日:2024-01-31 01:15:32 公開日:2024-01-27
# 3Dポイントクラウド分類におけるノンボックス攻撃

No-Box Attacks on 3D Point Cloud Classification ( http://arxiv.org/abs/2210.14164v3 )

ライセンス: Link先を確認
Hanieh Naderi, Chinthaka Dinesh, Ivan V. Bajic and Shohreh Kasaei(参考訳) 敵攻撃は、ディープニューラルネットワーク(DNN)に基づく様々な入力信号の解析に深刻な課題をもたらす。 3Dポイントクラウドの場合、ネットワーク決定において重要な役割を果たすポイントを識別する手法が開発されており、これらは既存の敵攻撃を発生させる上で重要である。 例えば、サリエンシマップアプローチは、敵のドロップポイントを識別する一般的な方法であり、その除去はネットワーク決定に大きな影響を及ぼす。 一般的に、敵対点を特定する方法は、DNNモデル自体へのアクセスに依存して、どの点がモデルの判断に重要かを決定する。 本稿では,対象のDNNモデルにアクセスすることなく,対向点を予測できる「no-box」攻撃という,この問題に対する新たな視点を提供することを目的とする。 この目的のために,14点のクラウド機能を定義し,複数の線形回帰を用いて,これらの機能を逆点予測に使用できるか,どの機能の組み合わせがこの目的に最適なのかを検討する。 実験によれば、適切な機能の組み合わせによって、4つの異なるネットワーク(pointnet、pointnet++、dgcnn、pointconv)の敵点を予測できることが示されている。 さらに,非ボックス攻撃を未認識モデルに転送可能であることを示す。 結果はまた、ポイントクラウド分類のためのDNNに関するさらなる洞察を与え、意思決定プロセスにおいてどの機能が重要な役割を果たすかを示す。

Adversarial attacks pose serious challenges for deep neural network (DNN)-based analysis of various input signals. In the case of 3D point clouds, methods have been developed to identify points that play a key role in network decision, and these become crucial in generating existing adversarial attacks. For example, a saliency map approach is a popular method for identifying adversarial drop points, whose removal would significantly impact the network decision. Generally, methods for identifying adversarial points rely on the access to the DNN model itself to determine which points are critically important for the model's decision. This paper aims to provide a novel viewpoint on this problem, where adversarial points can be predicted without access to the target DNN model, which is referred to as a ``no-box'' attack. To this end, we define 14 point cloud features and use multiple linear regression to examine whether these features can be used for adversarial point prediction, and which combination of features is best suited for this purpose. Experiments show that a suitable combination of features is able to predict adversarial points of four different networks -- PointNet, PointNet++, DGCNN, and PointConv -- significantly better than a random guess and comparable to white-box attacks. Additionally, we show that no-box attack is transferable to unseen models. The results also provide further insight into DNNs for point cloud classification, by showing which features play key roles in their decision-making process.
翻訳日:2024-01-31 01:07:53 公開日:2024-01-27
# ホリゾン:高分解能セマンティックパノラマ合成

HORIZON: High-Resolution Semantically Controlled Panorama Synthesis ( http://arxiv.org/abs/2210.04522v2 )

ライセンス: Link先を確認
Kun Yan, Lei Ji, Chenfei Wu, Jian Liang, Ming Zhou, Nan Duan, Shuai Ma(参考訳) パノラマ合成は、仮想世界の中心にユーザーを没入させ、360度の視覚風景を再現する。 それでも、現代のパノラマ合成技術は、コンテンツ生成過程を意味的に導くことの難しさを補っている。 最近の視覚合成のブレークスルーは、2次元平面画像における意味制御の可能性を解き放ったが、これらの手法のパノラマ合成への直接的応用は歪んだ内容を生み出す。 本研究では,高度球面モデリングによる球面歪みとエッジの不連続性の問題に際し,高分解能パノラマを生成するための革新的な枠組みを提案する。 我々の先駆的なアプローチは、画像とテキストの入力を併用したセマンティックコントロールをユーザに提供すると同時に、並列デコーディングによる高解像度パノラマ生成を並列に効率化する。 我々は,室内および屋外の多様なデータセットに対する方法論を厳格に評価し,定量的および定性的なパフォーマンス指標の両面で,最近の研究よりも優位性を確立した。 本研究は,パノラマ合成の制御性,効率,忠実度を新たなレベルに引き上げるものである。

Panorama synthesis endeavors to craft captivating 360-degree visual landscapes, immersing users in the heart of virtual worlds. Nevertheless, contemporary panoramic synthesis techniques grapple with the challenge of semantically guiding the content generation process. Although recent breakthroughs in visual synthesis have unlocked the potential for semantic control in 2D flat images, a direct application of these methods to panorama synthesis yields distorted content. In this study, we unveil an innovative framework for generating high-resolution panoramas, adeptly addressing the issues of spherical distortion and edge discontinuity through sophisticated spherical modeling. Our pioneering approach empowers users with semantic control, harnessing both image and text inputs, while concurrently streamlining the generation of high-resolution panoramas using parallel decoding. We rigorously evaluate our methodology on a diverse array of indoor and outdoor datasets, establishing its superiority over recent related work, in terms of both quantitative and qualitative performance metrics. Our research elevates the controllability, efficiency, and fidelity of panorama synthesis to new levels.
翻訳日:2024-01-31 01:06:46 公開日:2024-01-27
# 文脈内学習における感度と精度の関係について

On the Relation between Sensitivity and Accuracy in In-context Learning ( http://arxiv.org/abs/2209.07661v3 )

ライセンス: Link先を確認
Yanda Chen, Chen Zhao, Zhou Yu, Kathleen McKeown, He He(参考訳) in-context learning (icl)はプロンプトに対する過敏性に苦しめられ、現実のシナリオでは信頼できない。 複数の摂動型に対するICLの感度について検討した。 まず,ラベルバイアスが真の感度を曖昧にするため,先行研究はICL感度を著しく過小評価している可能性がある。 第二に、ICL感度と精度の間には強い負の相関が見られ、摂動に敏感な予測は正しいとは考えにくい。 これらの知見に触発され, 感性予測を無視する数ショット選択予測法である \textsc{SenSel} を提案する。 10の分類データセットの実験により、 \textsc{SenSel} は、不当決定に基づく信頼に基づくベースラインとエントロピーに基づくベースラインの2つを一貫して上回ることが示された。

In-context learning (ICL) suffers from oversensitivity to the prompt, making it unreliable in real-world scenarios. We study the sensitivity of ICL with respect to multiple perturbation types. First, we find that label bias obscures the true sensitivity, and therefore prior work may have significantly underestimated ICL sensitivity. Second, we observe a strong negative correlation between ICL sensitivity and accuracy: predictions sensitive to perturbations are less likely to be correct. Motivated by these findings, we propose \textsc{SenSel}, a few-shot selective prediction method that abstains from sensitive predictions. Experiments on ten classification datasets show that \textsc{SenSel} consistently outperforms two commonly used confidence-based and entropy-based baselines on abstention decisions.
翻訳日:2024-01-31 01:06:17 公開日:2024-01-27
# フェデレーションオフライン強化学習

Federated Offline Reinforcement Learning ( http://arxiv.org/abs/2206.05581v3 )

ライセンス: Link先を確認
Doudou Zhou, Yufeng Zhang, Aaron Sonabend-W, Zhaoran Wang, Junwei Lu, Tianxi Cai(参考訳) Evidence-based or data-driven dynamic treatment systemsは、オフライン強化学習(RL)の恩恵を受け得るパーソナライズド医療に不可欠である。 医療データは医療機関で利用できるが、プライバシー上の制約により共有は禁止されている。 さらに、異質性は異なる場所に存在する。 その結果、フェデレーションされたオフラインrlアルゴリズムが必要となり、問題に対処することを約束する。 本稿では,サイト間の均一効果と不均質効果の両方を可能にするマルチサイトマルコフ決定過程モデルを提案する。 提案モデルにより,サイトレベルの特徴の分析が可能となる。 我々は,オフラインRLを対象とした最初のフェデレーション最適化アルゴリズムを設計する。 提案アルゴリズムは通信効率が高く,要約統計を交換することで1ラウンドの通信インタラクションしか必要としない。 提案アルゴリズムでは,学習ポリシーの準最適性は,データが分散していないような速度に匹敵する,理論的保証を与える。 大規模なシミュレーションにより,提案アルゴリズムの有効性が示された。 この方法は、複数のサイトにあるsepsisデータセットに適用され、臨床環境での使用を説明する。

Evidence-based or data-driven dynamic treatment regimes are essential for personalized medicine, which can benefit from offline reinforcement learning (RL). Although massive healthcare data are available across medical institutions, they are prohibited from sharing due to privacy constraints. Besides, heterogeneity exists in different sites. As a result, federated offline RL algorithms are necessary and promising to deal with the problems. In this paper, we propose a multi-site Markov decision process model that allows for both homogeneous and heterogeneous effects across sites. The proposed model makes the analysis of the site-level features possible. We design the first federated policy optimization algorithm for offline RL with sample complexity. The proposed algorithm is communication-efficient, which requires only a single round of communication interaction by exchanging summary statistics. We give a theoretical guarantee for the proposed algorithm, where the suboptimality for the learned policies is comparable to the rate as if data is not distributed. Extensive simulations demonstrate the effectiveness of the proposed algorithm. The method is applied to a sepsis dataset in multiple sites to illustrate its use in clinical settings.
翻訳日:2024-01-31 01:02:47 公開日:2024-01-27
# 非ユークリッド tsp に対する最も安価な凸殻挿入ヒューリスティック

A Convex Hull Cheapest Insertion Heuristic for the Non-Euclidean TSP ( http://arxiv.org/abs/2302.06582v2 )

ライセンス: Link先を確認
Mithun Goutham, Meghna Menon, Sarah Garrow and Stephanie Stockar(参考訳) 凸船体で最も安価な挿入ヒューリスティックは、ユークリッド空間におけるトラベリングセールスパーソン問題に対する優れた解を生成することが知られているが、非ユークリッドの場合まで拡張されていない。 非ユークリッド空間の障害物に対処することの難しさを解決するため、提案手法は多次元スケーリングを用いてユークリッド空間のこれらの点をまず近似し、アルゴリズムを初期化する凸殻の生成を可能にする。 提案アルゴリズムを評価するために,非ユークリッド空間を生成する非許容セパレータを追加することにより,TSPLIBベンチマークデータセットを改良する。 このアルゴリズムは、調査されたケースの96%において、一般的に使われているNearest Neighborアルゴリズムより優れていることを示した。

The convex hull cheapest insertion heuristic is known to generate good solutions to the Traveling Salesperson Problem in Euclidean spaces, but it has not been extended to the non-Euclidean case. To address the difficulty of dealing with obstacles in the non-Euclidean space, the proposed adaptation uses multidimensional scaling to first approximate these points in a Euclidean space, thereby enabling the generation of the convex hull that initializes the algorithm. To evaluate the proposed algorithm, the TSPLIB benchmark data-set is modified by adding impassable separators that produce non-Euclidean spaces. The algorithm is demonstrated to outperform the commonly used Nearest Neighbor algorithm in 96% of the cases studied.
翻訳日:2024-01-31 00:56:36 公開日:2024-01-27
# 汎用言語モデルを用いたテキストからの材料データ抽出のためのフレキシブル・モデル非依存手法

Flexible, Model-Agnostic Method for Materials Data Extraction from Text Using General Purpose Language Models ( http://arxiv.org/abs/2302.04914v2 )

ライセンス: Link先を確認
Maciej P. Polak, Shrey Modi, Anna Latosinska, Jinming Zhang, Ching-Wen Wang, Shanonan Wang, Ayan Deep Hazra, and Dane Morgan(参考訳) 研究論文から抽出された正確で包括的な材料データベースは材料科学と工学にとって重要であるが、開発にはかなりの人的努力を要する。 本稿では,小型データベースを迅速に開発するための研究論文の全文から資料データを抽出する簡易な方法を提案する。 この方法は、最小限のコーディング、抽出されたプロパティに関する事前知識、モデルトレーニングを必要とし、結果データベースに高いリコールとほぼ完全な精度を提供する。 この方法は完全に自動化されているが、人間の助けを必要とするステップは1つしかない。 この手法は自然言語処理と大規模汎用言語モデルの上に構築されるが、ほとんどどんなモデルでも動作可能である。 言語モデルgpt-3/3.5, bart, debertav3の比較を行った。 本研究では, バルク弾性率データを抽出する手法の詳細な解析を行い, 作業量に応じて, 96%のリコールで最大90%の精度が得られることを示した。 次に, 金属ガラスの臨界冷却速度データベースを開発することにより, 幅広い有効性を示す。

Accurate and comprehensive material databases extracted from research papers are critical for materials science and engineering but require significant human effort to develop. In this paper we present a simple method of extracting materials data from full texts of research papers suitable for quickly developing modest-sized databases. The method requires minimal to no coding, prior knowledge about the extracted property, or model training, and provides high recall and almost perfect precision in the resultant database. The method is fully automated except for one human-assisted step, which typically requires just a few hours of human labor. The method builds on top of natural language processing and large general language models but can work with almost any such model. The language models GPT-3/3.5, bart and DeBERTaV3 are evaluated here for comparison. We provide a detailed detailed analysis of the methods performance in extracting bulk modulus data, obtaining up to 90% precision at 96% recall, depending on the amount of human effort involved. We then demonstrate the methods broader effectiveness by developing a database of critical cooling rates for metallic glasses.
翻訳日:2024-01-31 00:56:22 公開日:2024-01-27
# 音声処理のためのトランスフォーマーに基づく自己教師型圧縮モデル

Compressing Transformer-based self-supervised models for speech processing ( http://arxiv.org/abs/2211.09949v2 )

ライセンス: Link先を確認
Tzu-Quan Lin, Tsung-Huan Yang, Chun-Yao Chang, Kuang-Ming Chen, Tzu-hsun Feng, Hung-yi Lee, Hao Tang(参考訳) 様々な下流タスクへの応用による自己教師型学習におけるトランスフォーマーの成功にもかかわらず、トレーニングと推論の計算コストは、これらのモデルを幅広いデバイスに適用する上で大きな課題である。 トランスフォーマーを圧縮するためにいくつかの独立した試みがなされているが、設定とメトリクスは研究によって異なる。 様々な圧縮速度でのトレードオフは、以前の作業でほとんど失われており、圧縮技術の比較が困難である。 本研究では, 分離された結果の文脈を提供し, 重みの刈り込み, ヘッドの刈り取り, 低ランク近似, 知識蒸留など, 広く用いられている圧縮技術について検討することを目的とした。 壁時計時間,パラメータ数,累積演算数など,様々な圧縮速度でのトレードオフを報告する。 その結果,近年の手法に比べ,基本圧縮技術は強固なベースラインであることが判明した。 さらに,本研究の応用として,対角的アテンションヘッドの重要性などのトランスフォーマーの特性を明らかにする。 さらに,近年のアプローチに対するトレードオフを改善する圧縮手法の簡易な組み合わせも実現している。 この結果により,モデル圧縮手法の多種多様な比較が促進され,モデル解析ツールとしてのモデル圧縮が促進されることを期待する。 音声自己教師付きモデルを圧縮するコードはhttps://github.com/nervjack2/speech-ssl-compression/で閲覧できます。

Despite the success of Transformers in self- supervised learning with applications to various downstream tasks, the computational cost of training and inference remains a major challenge for applying these models to a wide spectrum of devices. Several isolated attempts have been made to compress Transformers, but the settings and metrics are different across studies. Trade-off at various compression rates are also largely missing in prior work, making it difficult to compare compression techniques. In this work, we aim to provide context for the isolated results, studying several commonly used compression techniques, including weight pruning, head pruning, low-rank approximation, and knowledge distillation. We report trade- off at various compression rate, including wall-clock time, the number of parameters, and the number of multiply-accumulate operations. Our results show that compared to recent approaches, basic compression techniques are strong baselines. We further present several applications of our results, revealing properties of Transformers, such as the significance of diagonal attention heads. In addition, our results lead to a simple combination of compression techniques that improves trade-off over recent approaches. We hope the results would promote more diverse comparisons among model compression techniques and promote the use of model compression as a tool for analyzing models. Our code of compressing speech self-supervised model is available at https://github.com/nervjack2/Speech-SSL-Compression/.
翻訳日:2024-01-31 00:51:51 公開日:2024-01-27
# 計算病理学 : サーベイレビューと今後の展開

Computational Pathology: A Survey Review and The Way Forward ( http://arxiv.org/abs/2304.05482v3 )

ライセンス: Link先を確認
Mahdi S. Hosseini, Babak Ehteshami Bejnordi, Vincent Quoc-Huy Trinh, Danial Hasan, Xingwen Li, Taehyo Kim, Haochen Zhang, Theodore Wu, Kajanan Chinniah, Sina Maghsoudlou, Ryan Zhang, Stephen Yang, Jiadai Zhu, Lyndon Chan, Samir Khaki, Andrei Buin, Fatemeh Chaji, Ala Salehi, Bich Ngoc Nguyen, Dimitris Samaras and Konstantinos N. Plataniotis(参考訳) 計算病理学 cpath は医学的病理学画像の解析とモデル化のための計算手法の開発を促進する学際科学である。 CPathの主な目的は,臨床病理の補助的CADシステムとしてデジタル診断の基盤とワークフローを開発することである。 ディープラーニングとコンピュータビジョンアルゴリズムの進歩と、デジタル病理からのデータフローの容易化により、CPathは現在、パラダイムシフトを目の当たりにしている。 がん画像解析のためのエンジニアリングと科学的研究が数多く導入されているにもかかわらず、これらのアルゴリズムを臨床実践に適用し、統合することには、依然としてかなりのギャップがある。 これはCPathで行われている方向性とトレンドに関する重要な疑問を提起する。 本稿では,800以上の論文を総合的にレビューし,アプリケーションと実装の観点から,問題設計において直面する課題に対処する。 CPathの現在の景観をレイアウトする上で直面する重要な作業や課題を調べて、各論文をモデルカードにカタログ化した。 コミュニティが関連する作業を見つけ出し、フィールドの今後の方向性を理解するのに役立つことを願っています。 簡単に言えば、このような多分野科学に関わる課題に対処するために、結合的にリンクする必要がある段階の周期においてCPathの発展を監督する。 データ中心、モデル中心、アプリケーション中心のさまざまな問題の観点から、このサイクルを概観する。 最終的に、残る課題をスケッチし、CPath(https://github.com/AtlasAnalyticsLab/CPath_Survey)の今後の技術的発展と臨床統合の方向性を提供します。

Computational Pathology CPath is an interdisciplinary science that augments developments of computational approaches to analyze and model medical histopathology images. The main objective for CPath is to develop infrastructure and workflows of digital diagnostics as an assistive CAD system for clinical pathology, facilitating transformational changes in the diagnosis and treatment of cancer that are mainly address by CPath tools. With evergrowing developments in deep learning and computer vision algorithms, and the ease of the data flow from digital pathology, currently CPath is witnessing a paradigm shift. Despite the sheer volume of engineering and scientific works being introduced for cancer image analysis, there is still a considerable gap of adopting and integrating these algorithms in clinical practice. This raises a significant question regarding the direction and trends that are undertaken in CPath. In this article we provide a comprehensive review of more than 800 papers to address the challenges faced in problem design all-the-way to the application and implementation viewpoints. We have catalogued each paper into a model-card by examining the key works and challenges faced to layout the current landscape in CPath. We hope this helps the community to locate relevant works and facilitate understanding of the field's future directions. In a nutshell, we oversee the CPath developments in cycle of stages which are required to be cohesively linked together to address the challenges associated with such multidisciplinary science. We overview this cycle from different perspectives of data-centric, model-centric, and application-centric problems. We finally sketch remaining challenges and provide directions for future technical developments and clinical integration of CPath (https://github.com/AtlasAnalyticsLab/CPath_Survey).
翻訳日:2024-01-30 23:10:05 公開日:2024-01-27
# MOPA: PointGoal Agentによるモジュールオブジェクトナビゲーション

MOPA: Modular Object Navigation with PointGoal Agents ( http://arxiv.org/abs/2304.03696v3 )

ライセンス: Link先を確認
Sonia Raychaudhuri, Tommaso Campari, Unnat Jain, Manolis Savva, Angel X. Chang(参考訳) 本稿では,具体化aiにおけるオブジェクトナビゲーションタスク固有のモジュラリティを体系的に検討するために,単純かつ効果的なモジュラーアプローチmopa(modular objectnav with pointgoal agents)を提案する。 MOPAは4つのモジュールから構成される。 (a)RGB画像からオブジェクトを識別するよう訓練されたオブジェクト検出モジュール (b)観測対象のセマンティックマップを構築するためのマップ構築モジュール (c)エージェントが環境を探索できる探索モジュール、及び (d) 特定対象オブジェクトに移動するためのナビゲーションモジュール。 我々は,スクラッチから学習する代わりに,事前学習したPointGoalエージェントをナビゲーションモデルとして効果的に再利用できることを示す。 また、MOPAの様々な探査戦略を比較し、単純な統一戦略がより高度な探査方法よりも優れていることを見出した。

We propose a simple but effective modular approach MOPA (Modular ObjectNav with PointGoal agents) to systematically investigate the inherent modularity of the object navigation task in Embodied AI. MOPA consists of four modules: (a) an object detection module trained to identify objects from RGB images, (b) a map building module to build a semantic map of the observed objects, (c) an exploration module enabling the agent to explore the environment, and (d) a navigation module to move to identified target objects. We show that we can effectively reuse a pretrained PointGoal agent as the navigation model instead of learning to navigate from scratch, thus saving time and compute. We also compare various exploration strategies for MOPA and find that a simple uniform strategy significantly outperforms more advanced exploration methods.
翻訳日:2024-01-30 23:09:10 公開日:2024-01-27
# Prompt-Tuning を用いた会話課題の言語間移動学習の効率化

Efficiently Aligned Cross-Lingual Transfer Learning for Conversational Tasks using Prompt-Tuning ( http://arxiv.org/abs/2304.01295v4 )

ライセンス: Link先を確認
Lifu Tu, Jin Qu, Semih Yavuz, Shafiq Joty, Wenhao Liu, Caiming Xiong, Yingbo Zhou(参考訳) 英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクで広く研究されているが、会話タスクに焦点が当てられているのは比較的限られている。 これは、非英語の会話データを取得するコストが高いためであり、カバー範囲は限られている。 本稿では、英語のみのスキーマガイド対話(SGD)データセット(Rastogi et al., 2020)を105言語に翻訳することで、並列かつ大規模な多言語会話データセットである、言語間アライメント事前学習のためのXSGDを紹介する。 xsgdは言語毎に約330k発話を含む。 そこで我々は,アライメントプロンプトを学習する効率的なプロンプトチューニング手法を開発した。 また、NLIベースとバニラ分類器の2つの異なる分類器と、アライメントされたプロンプトによって可能となる言語間のテスト機能についても検討する。 我々は,2つの会話タスク(スロットフィルングとインテント分類)における言語横断的一般化能力を評価する。 提案手法は,NLIに基づく分類器のモデリング能力の強化と,アライメントプロンプトによる言語間移動の大幅な改善,特に数ショット設定において実現された。 また,テキストダヴィンチ003 や ChatGPT などの LLM と比較して,ゼロショット設定と少数ショット設定の両方で,アプローチの優れた結果を強調した。 LLMは英語で印象的な性能を示すが、他の言語、特に低リソース言語における言語間の能力は限られている。

Cross-lingual transfer of language models trained on high-resource languages like English has been widely studied for many NLP tasks, but focus on conversational tasks has been rather limited. This is partly due to the high cost of obtaining non-English conversational data, which results in limited coverage. In this work, we introduce XSGD for cross-lingual alignment pretraining, a parallel and large-scale multilingual conversation dataset that we created by translating the English-only Schema-Guided Dialogue (SGD) dataset (Rastogi et al., 2020) into 105 other languages. XSGD contains approximately 330k utterances per language. To facilitate aligned cross-lingual representations, we develop an efficient prompt-tuning-based method for learning alignment prompts. We also investigate two different classifiers: NLI-based and vanilla classifiers, and test cross-lingual capability enabled by the aligned prompts. We evaluate our model's cross-lingual generalization capabilities on two conversation tasks: slot-filling and intent classification. Our results demonstrate the strong and efficient modeling ability of NLI-based classifiers and the large cross-lingual transfer improvements achieved by our aligned prompts, particularly in few-shot settings. In addition, we highlight the nice results of our approach compared to LLMs such as text-davinci-003 and ChatGPT in both zero-shot and few-shot settings. While LLMs exhibit impressive performance in English, their cross-lingual capabilities in other languages, particularly low-resource languages, are limited.
翻訳日:2024-01-30 23:08:57 公開日:2024-01-27
# 変圧器の深部特性探索による画像劣化

Image Deblurring by Exploring In-depth Properties of Transformer ( http://arxiv.org/abs/2303.15198v2 )

ライセンス: Link先を確認
Pengwei Liang, Junjun Jiang, Xianming Liu, Jiayi Ma(参考訳) 画像デブラリングは生成モデルの開発によって印象的な性能を保ち続けている。 それでも、回復した画像の知覚的品質と定量的スコアを同時に向上させたい場合、いまだに不快な問題が残っている。 本研究では, 変圧器特性の研究から着想を得て, 予め学習した変圧器を導入し, この問題に対処する。 特に,事前訓練された視覚トランスフォーマ(vit)から抽出された深部特徴を活用して,定量的測定で測定した性能を犠牲にすることなく,復元画像のシャープ化を奨励する。 事前学習した変換器は画像のグローバルなトポロジカルな関係(すなわち自己相似性)を捉えることができ、鮮明な画像に関する捕獲されたトポロジカルな関係は、ぼかしが発生すると変化する。 復元画像と目標画像とのトランスフォーマー特性を比較することにより、予め訓練されたトランスフォーマーは高分解能のぼやけ感のある意味情報を提供する。 優位性に基づいて、画像の劣化をガイドする2種類の新しい知覚的損失を提示する。 特徴をベクトルとみなし、抽出された画像から抽出された表現とユークリッド空間における対象表現との差を計算する。 他の型は、画像から抽出した特徴を分布とみなし、回収した画像と対象画像との分布差を比較する。 そこで本研究では,uformer,restormer,nafnetなど,最も競争の激しいモデルに対する定量的スコア(psnr)を犠牲にすることなく,知覚品質向上におけるトランスフォーマ特性の有効性を実証する。

Image deblurring continues to achieve impressive performance with the development of generative models. Nonetheless, there still remains a displeasing problem if one wants to improve perceptual quality and quantitative scores of recovered image at the same time. In this study, drawing inspiration from the research of transformer properties, we introduce the pretrained transformers to address this problem. In particular, we leverage deep features extracted from a pretrained vision transformer (ViT) to encourage recovered images to be sharp without sacrificing the performance measured by the quantitative metrics. The pretrained transformer can capture the global topological relations (i.e., self-similarity) of image, and we observe that the captured topological relations about the sharp image will change when blur occurs. By comparing the transformer features between recovered image and target one, the pretrained transformer provides high-resolution blur-sensitive semantic information, which is critical in measuring the sharpness of the deblurred image. On the basis of the advantages, we present two types of novel perceptual losses to guide image deblurring. One regards the features as vectors and computes the discrepancy between representations extracted from recovered image and target one in Euclidean space. The other type considers the features extracted from an image as a distribution and compares the distribution discrepancy between recovered image and target one. We demonstrate the effectiveness of transformer properties in improving the perceptual quality while not sacrificing the quantitative scores (PSNR) over the most competitive models, such as Uformer, Restormer, and NAFNet, on defocus deblurring and motion deblurring tasks.
翻訳日:2024-01-30 23:08:27 公開日:2024-01-27
# モジュール型ディープラーニング

Modular Deep Learning ( http://arxiv.org/abs/2302.11529v2 )

ライセンス: Link先を確認
Jonas Pfeiffer, Sebastian Ruder, Ivan Vuli\'c, Edoardo Maria Ponti(参考訳) トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。 下流タスク用に微調整された事前訓練されたモデルは、ラベル付き例を少なくしてより良いパフォーマンスを実現する。 にもかかわらず、負の干渉を起こさずに複数のタスクに特化して、体系的に非同一の分散タスクに一般化するモデルを開発する方法はまだ不明である。 モジュラーディープラーニングは、これらの課題に対する有望な解決策として現れてきた。 このフレームワークでは、計算単位はしばしば自律的なパラメーター効率のモジュールとして実装される。 情報は条件付きでモジュールのサブセットにルーティングされ、その後集約される。 これらの特性は、計算をルーティングから分離し、モジュールをローカルに更新することで、正の転送と体系的な一般化を可能にする。 我々はモジュラーアーキテクチャの調査を行い、科学文献の中で独立に進化したいくつかの研究のスレッドを統一した見解を提供する。 さらに,言語モデルのスケーリング,因果推論,プログラム誘導,強化学習の計画など,モジュール性に関するさまざまな目的についても検討する。 最後に,モジュール性が言語間やモーダル間の知識伝達など,様々な具体的な応用について報告する。 この調査に関連する講演やプロジェクトは、https://www.modulardeeplearning.com/で見ることができる。

Transfer learning has recently become the dominant paradigm of machine learning. Pre-trained models fine-tuned for downstream tasks achieve better performance with fewer labelled examples. Nonetheless, it remains unclear how to develop models that specialise towards multiple tasks without incurring negative interference and that generalise systematically to non-identically distributed tasks. Modular deep learning has emerged as a promising solution to these challenges. In this framework, units of computation are often implemented as autonomous parameter-efficient modules. Information is conditionally routed to a subset of modules and subsequently aggregated. These properties enable positive transfer and systematic generalisation by separating computation from routing and updating modules locally. We offer a survey of modular architectures, providing a unified view over several threads of research that evolved independently in the scientific literature. Moreover, we explore various additional purposes of modularity, including scaling language models, causal inference, programme induction, and planning in reinforcement learning. Finally, we report various concrete applications where modularity has been successfully deployed such as cross-lingual and cross-modal knowledge transfer. Related talks and projects to this survey, are available at https://www.modulardeeplearning.com/.
翻訳日:2024-01-30 23:05:07 公開日:2024-01-27
# 相関信念を考慮した最適学習による逐次トランジットネットワーク設計アルゴリズム

A sequential transit network design algorithm with optimal learning under correlated beliefs ( http://arxiv.org/abs/2305.09452v2 )

ライセンス: Link先を確認
Gyugeun Yoon, Joseph Y. J. Chow(参考訳) モビリティサービス経路設計は、サービス領域で運用するための需要情報を要求する。 交通プランナーやオペレータは、家庭旅行調査データやモバイルデバイスの位置ログなど、さまざまなデータソースにアクセスすることができる。 しかし,新興技術でモビリティシステムを実装する場合,データ不足のため需要の推定が困難となり,不確実性が高まる。 本研究では, 逐次的トランジットネットワーク設計と最適学習を組み合わせた人工知能駆動型アルゴリズムを提案する。 オペレータは、設計されたルートと実際の旅行需要との矛盾からリスクを避けるために、徐々にルートシステムを拡張します。 同時に、観測された情報をアーカイブして、オペレータが現在使用している知識を更新する。 アルゴリズム内の3つの学習方針を比較する:マルチアームバンディット、知識勾配、知識勾配と相関した信念。 検証のために、新しいルートシステムは、ニューヨーク市の公用マイクロデータエリアに基づく人工ネットワークに基づいて設計されている。 地域家庭旅行調査データから事前知識を再現する。 その結果,相関関係を考慮した探索は,一般の欲望選択よりも優れた性能が得られることが示唆された。 今後の作業では、移動時間に対する需要弾力性、転送数に制限がないこと、拡張のコストなど、より複雑な問題を取り込むことができる。

Mobility service route design requires demand information to operate in a service region. Transit planners and operators can access various data sources including household travel survey data and mobile device location logs. However, when implementing a mobility system with emerging technologies, estimating demand becomes harder because of limited data resulting in uncertainty. This study proposes an artificial intelligence-driven algorithm that combines sequential transit network design with optimal learning to address the operation under limited data. An operator gradually expands its route system to avoid risks from inconsistency between designed routes and actual travel demand. At the same time, observed information is archived to update the knowledge that the operator currently uses. Three learning policies are compared within the algorithm: multi-armed bandit, knowledge gradient, and knowledge gradient with correlated beliefs. For validation, a new route system is designed on an artificial network based on public use microdata areas in New York City. Prior knowledge is reproduced from the regional household travel survey data. The results suggest that exploration considering correlations can achieve better performance compared to greedy choices in general. In future work, the problem may incorporate more complexities such as demand elasticity to travel time, no limitations to the number of transfers, and costs for expansion.
翻訳日:2024-01-30 22:58:44 公開日:2024-01-27
# SCENE: 否定的事例への外挿のための自己ラベル型対策

SCENE: Self-Labeled Counterfactuals for Extrapolating to Negative Examples ( http://arxiv.org/abs/2305.07984v3 )

ライセンス: Link先を確認
Deqing Fu, Ameya Godbole, Robin Jia(参考訳) 否定を検知する(非包含関係、未解決問題、虚偽主張など)ことは、多くの自然言語理解タスクにおいて重要かつ困難な側面である。 手動による挑戦的なネガティブな例の収集は、モデルの検出に役立つが、コストとドメイン固有性の両方がある。 本研究では,課題となる否定的な例を検出するモデルの能力を大幅に向上させるトレーニングデータの合成手法であるscene(expolating to negative examples)を提案する。 既存のラベルの新しい例を合成する標準的なデータ拡張とは対照的に、SCENEは正の例のみから負の例をゼロショットに合成することができる。 正の例が与えられた場合、SCENEはマスク満載モデルでそれを摂動し、その結果の例が自己学習ヒューリスティックに基づいて負かどうかを決定する。 回答可能なトレーニング例のみを使用することで、studio 2.0でトレーニングされたモデルと比較して、studio 2.0のパフォーマンスギャップの69.6%をクローズすることができる。 また,本手法は,文の包含度を認識してブール質問応答に拡張し,SQuADからACE-whQAへの一般化を改善する。

Detecting negatives (such as non-entailment relationships, unanswerable questions, and false claims) is an important and challenging aspect of many natural language understanding tasks. Though manually collecting challenging negative examples can help models detect them, it is both costly and domain-specific. In this work, we propose Self-labeled Counterfactuals for Extrapolating to Negative Examples (SCENE), an automatic method for synthesizing training data that greatly improves models' ability to detect challenging negative examples. In contrast with standard data augmentation, which synthesizes new examples for existing labels, SCENE can synthesize negative examples zero-shot from only positive ones. Given a positive example, SCENE perturbs it with a mask infilling model, then determines whether the resulting example is negative based on a self-training heuristic. With access to only answerable training examples, SCENE can close 69.6% of the performance gap on SQuAD 2.0, a dataset where half of the evaluation examples are unanswerable, compared to a model trained on SQuAD 2.0. Our method also extends to boolean question answering and recognizing textual entailment, and improves generalization from SQuAD to ACE-whQA, an out-of-domain extractive QA benchmark.
翻訳日:2024-01-30 22:58:23 公開日:2024-01-27
# ニューラルネットワークの確率的アンダー近似(フルバージョン)

Provable Preimage Under-Approximation for Neural Networks (Full Version) ( http://arxiv.org/abs/2305.03686v4 )

ライセンス: Link先を確認
Xiyue Zhang, Benjie Wang, Marta Kwiatkowska(参考訳) ニューラルネットワークの検証は主に局所ロバスト性に注目し、与えられた入力セットのイメージ(出力のセット)をバウンドすることでチェックできる。 しかし、与えられたプロパティが入力ドメインに対してグローバルに保持されているかどうかを知ることが重要であり、その場合、そのプロパティのどの比率が真かを知ることが重要である。 このような特性を分析するには、ニューラルネットワークのプリイメージ抽象化を計算する必要がある。 本研究では,ニューラルネットワークに対する任意のポリヘドロン出力セットの事前像の記号下近似を生成するための効率的な時空アルゴリズムを提案する。 提案アルゴリズムは, 線形緩和法を用いてポリトープ事前近似を安価に計算する新しい手法と, 近似を改善するために入力領域を入力とReLU分割を用いてサブリージョンに繰り返し分割する精細化手順を組み合わせる。 提案手法の有効性を実証的に検証し,MNISTの高次元分類タスクを既存の事前画像計算手法の範囲を超えた範囲で検証する。 最後に,実例として定量的検証とロバストネス解析への応用について述べる。 我々は,ポリトープ表現の相互結合を利用して形式的保証を行う,前者のための健全で完全なアルゴリズムを提案する。 後者については,標準検証器がロバスト性特性を検証できない場合でも有用な量的情報を提供できることを示す。

Neural network verification mainly focuses on local robustness properties, which can be checked by bounding the image (set of outputs) of a given input set. However, often it is important to know whether a given property holds globally for the input domain, and if not then for what proportion of the input the property is true. To analyze such properties requires computing preimage abstractions of neural networks. In this work, we propose an efficient anytime algorithm for generating symbolic under-approximations of the preimage of any polyhedron output set for neural networks. Our algorithm combines a novel technique for cheaply computing polytope preimage under-approximations using linear relaxation, with a carefully-designed refinement procedure that iteratively partitions the input region into subregions using input and ReLU splitting in order to improve the approximation. Empirically, we validate the efficacy of our method across a range of domains, including a high-dimensional MNIST classification task beyond the reach of existing preimage computation methods. Finally, as use cases, we showcase the application to quantitative verification and robustness analysis. We present a sound and complete algorithm for the former, which exploits our disjoint union of polytopes representation to provide formal guarantees. For the latter, we find that our method can provide useful quantitative information even when standard verifiers cannot verify a robustness property.
翻訳日:2024-01-30 22:56:00 公開日:2024-01-27
# FUSegNet:足の潰瘍分離のための深部畳み込みニューラルネットワーク

FUSegNet: A Deep Convolutional Neural Network for Foot Ulcer Segmentation ( http://arxiv.org/abs/2305.02961v2 )

ライセンス: Link先を確認
Mrinal Kanti Dhar, Taiyu Zhang, Yash Patel, Sandeep Gopalakrishnan, and Zeyun Yu(参考訳) 本稿では,糖尿病患者の足部潰瘍分節の新しいモデルであるFUSegNetについて述べる。 並列scSE(英語版)またはP-scSE(英語版)と呼ばれる空間的およびチャネル的圧縮・励起(scSE)モジュールが加法と最大出力scSEを組み合わせて提案されている。 モジュールをデコーダステージの中央にフレッシュすることで、新しいアレンジが導入された。 上位デコーダのステージは限られた数の特徴写像を持ち、最大出力の scSE をバイパスして P-scSE を短くする。 ネットワークにデータを供給する前に、幾何学的、形態的、強度に基づく拡張を含む一連の拡張を施す。 提案手法は, 報告されたアプローチの中で最も高い92.70%のダイススコアを達成し, 一般に公開されている慢性創傷データセットで評価した。 このモデルは、他のScSEベースのUNetモデルよりも多くのカテゴリにおいてプラットの有益度(PFOM)のスコアで優れており、エッジローカライゼーションの精度を評価する。 このモデルはMICCAI 2021 FUSegチャレンジでテストされ、x-FUSegNetと呼ばれるFUSegNetのバリエーションが提出される。 x-FUSegNetモデルは、FUSegNetが5倍のクロスバリデーションを用いて得た出力の平均値を取り、89.23%のダイススコアを達成し、FUSeg Challengeのリーダーボードの上位に位置する。 このモデルのソースコードはhttps://github.com/mrinal054/FUSegNetで入手できる。

This paper presents FUSegNet, a new model for foot ulcer segmentation in diabetes patients, which uses the pre-trained EfficientNet-b7 as a backbone to address the issue of limited training samples. A modified spatial and channel squeeze-and-excitation (scSE) module called parallel scSE or P-scSE is proposed that combines additive and max-out scSE. A new arrangement is introduced for the module by fusing it in the middle of each decoder stage. As the top decoder stage carries a limited number of feature maps, max-out scSE is bypassed there to form a shorted P-scSE. A set of augmentations, comprising geometric, morphological, and intensity-based augmentations, is applied before feeding the data into the network. The proposed model is first evaluated on a publicly available chronic wound dataset where it achieves a data-based dice score of 92.70%, which is the highest score among the reported approaches. The model outperforms other scSE-based UNet models in terms of Pratt's figure of merits (PFOM) scores in most categories, which evaluates the accuracy of edge localization. The model is then tested in the MICCAI 2021 FUSeg challenge, where a variation of FUSegNet called x-FUSegNet is submitted. The x-FUSegNet model, which takes the average of outputs obtained by FUSegNet using 5-fold cross-validation, achieves a dice score of 89.23%, placing it at the top of the FUSeg Challenge leaderboard. The source code for the model is available on https://github.com/mrinal054/FUSegNet.
翻訳日:2024-01-30 22:55:37 公開日:2024-01-27
# 詳しく教えてください:潜在検索によるファクトチェックの改善

Give Me More Details: Improving Fact-Checking with Latent Retrieval ( http://arxiv.org/abs/2305.16128v2 )

ライセンス: Link先を確認
Xuming Hu, Junzhe Chen, Zhijiang Guo, Philip S. Yu(参考訳) 証拠は、ファクトチェックの自動化において重要な役割を果たす。 実世界のクレームを検証する場合、既存のファクトチェックシステムは証拠文が与えられたと仮定するか、検索エンジンが返した検索スニペットを使用する。 このような手法は証拠収集の課題を無視し、現実世界の主張を検証する十分な情報を提供しない可能性がある。 より優れたファクトチェックシステムの構築を目指して,資料の全文をエビデンスとして組み込むとともに,拡張データセットを2つ導入する。 1つは多言語データセット、もう1つは単言語(英語)である。 さらに,文書から証拠文を共同抽出し,クレーム検証を行う潜在変数モデルを開発した。 実験は、金の証拠文が注釈が付されていない場合でも、ソースドキュメントを含めれば十分な文脈的手がかりが得られることを示している。 提案システムは,異なる設定下での最良の報告モデルに対して,大幅な改善を実現することができる。

Evidence plays a crucial role in automated fact-checking. When verifying real-world claims, existing fact-checking systems either assume the evidence sentences are given or use the search snippets returned by the search engine. Such methods ignore the challenges of collecting evidence and may not provide sufficient information to verify real-world claims. Aiming at building a better fact-checking system, we propose to incorporate full text from source documents as evidence and introduce two enriched datasets. The first one is a multilingual dataset, while the second one is monolingual (English). We further develop a latent variable model to jointly extract evidence sentences from documents and perform claim verification. Experiments indicate that including source documents can provide sufficient contextual clues even when gold evidence sentences are not annotated. The proposed system is able to achieve significant improvements upon best-reported models under different settings.
翻訳日:2024-01-30 22:44:03 公開日:2024-01-27
# ConvGQR: 対話型検索のための生成クエリ再構成

ConvGQR: Generative Query Reformulation for Conversational Search ( http://arxiv.org/abs/2305.15645v3 )

ライセンス: Link先を確認
Fengran Mo, Kelong Mao, Yutao Zhu, Yihong Wu, Kaiyu Huang, Jian-Yun Nie(参考訳) 会話検索では、ユーザの現在のターンに対する真の検索意図は、前の会話履歴に依存する。 会話のコンテキスト全体から適切な検索クエリを決定することは難しい。 クエリエンコーダの高価な再トレーニングを避けるため、既存のほとんどのメソッドは、手動のクエリ書き換えを模倣して現在のクエリを非テキスト化する書き換えモデルを学習しようとする。 しかし、手書きのクエリは必ずしも最高の検索クエリであるとは限らない。 書き換えモデルのトレーニングは、モデルが優れた検索クエリを生成する能力を制限します。 もう1つの有用なヒントは、質問に対する潜在的な答えである。 本稿では,生成事前学習言語モデル(PLM)に基づく会話クエリを再構成する新しいフレームワークであるConvGQRを提案する。 両方を組み合わせることで、ConvGQRはより良い検索クエリを生成することができる。 さらに,クエリ再構成と検索性能を関連付けるために,クエリ再構成と検索の両方を最適化する知識注入機構を提案する。 4つの対話型検索データセットに対する大規模な実験は、ConvGQRの有効性を示す。

In conversational search, the user's real search intent for the current turn is dependent on the previous conversation history. It is challenging to determine a good search query from the whole conversation context. To avoid the expensive re-training of the query encoder, most existing methods try to learn a rewriting model to de-contextualize the current query by mimicking the manual query rewriting. However, manually rewritten queries are not always the best search queries. Training a rewriting model on them would limit the model's ability to produce good search queries. Another useful hint is the potential answer to the question. In this paper, we propose ConvGQR, a new framework to reformulate conversational queries based on generative pre-trained language models (PLMs), one for query rewriting and another for generating potential answers. By combining both, ConvGQR can produce better search queries. In addition, to relate query reformulation to retrieval performance, we propose a knowledge infusion mechanism to optimize both query reformulation and retrieval. Extensive experiments on four conversational search datasets demonstrate the effectiveness of ConvGQR.
翻訳日:2024-01-30 22:43:48 公開日:2024-01-27
# CEO:企業ベースのオープンドメインイベントオントロジーインジェクション

CEO: Corpus-based Open-Domain Event Ontology Induction ( http://arxiv.org/abs/2305.13521v2 )

ライセンス: Link先を確認
Nan Xu, Hongming Zhang, Jianshu Chen(参考訳) 既存のイベント中心のNLPモデルは、しばしば事前定義されたオントロジーにのみ適用される。 本稿では,事前定義されたイベントオントロジーによって課される制約を緩和する,新しいコーパスに基づくイベントオントロジー誘導モデルであるceoを提案する。 直接の監督なしに、CEOは利用可能なサマリデータセットから離れた監視を利用して、コーパスワイズなイベントを検出し、外部イベント知識を活用して、短い距離でイベントを強制し、密着した埋め込みを行う。 一般的な3つのイベントデータセットの実験によると、CEOによって誘導されるスキーマは、以前の方法よりもカバレッジが良く、精度も高い。 さらに、ceoは11のオープンドメインコーパスに有意義な名前を持つ階層的なイベントオントロジーを誘導できる最初のイベントオントロジー誘導モデルであり、誘導スキーマの信頼性が向上し、さらなるキュレーションが容易になる。

Existing event-centric NLP models often only apply to the pre-defined ontology, which significantly restricts their generalization capabilities. This paper presents CEO, a novel Corpus-based Event Ontology induction model to relax the restriction imposed by pre-defined event ontologies. Without direct supervision, CEO leverages distant supervision from available summary datasets to detect corpus-wise salient events and exploits external event knowledge to force events within a short distance to have close embeddings. Experiments on three popular event datasets show that the schema induced by CEO has better coverage and higher accuracy than previous methods. Moreover, CEO is the first event ontology induction model that can induce a hierarchical event ontology with meaningful names on eleven open-domain corpora, making the induced schema more trustworthy and easier to be further curated.
翻訳日:2024-01-30 22:43:06 公開日:2024-01-27
# EnCore: 参照チェーン上の事前トレーニングエンティティエンコーダによるファイングラインドエンティティ型付け

EnCore: Fine-Grained Entity Typing by Pre-Training Entity Encoders on Coreference Chains ( http://arxiv.org/abs/2305.12924v2 )

ライセンス: Link先を確認
Frank Mtumbuka and Steven Schockaert(参考訳) エンティティ型付けは、テキストで言及されているエンティティにセマンティック型を割り当てるタスクである。 細粒度エンティティタイピング(FET)の場合、候補型ラベルの大規模なセットが考慮される。 十分な量の手動アノテーションを取得することは違法にコストがかかるため、FETモデルは一般的に遠距離監視を用いて訓練される。 本稿では,コアフェリングエンティティの埋め込みが,他のエンティティの埋め込みよりも互いに類似しているようなエンティティエンコーダを事前学習することで,このプロセスを改善することを提案する。 この戦略の主な問題は、なぜこれまで考慮されていなかったのかを説明するのに役立ち、予測されたコリファレンスリンクがあまりにも騒がしいことである。 2つの異なるオフ・ザ・棚システムによって予測されるコリファレンスリンクのみを検討する。 この巧妙なコア参照リンクの使用により、私たちの事前学習戦略は、きめ細かいエンティティ型付けのベンチマークや従来のエンティティ抽出の最先端性を改善することができます。

Entity typing is the task of assigning semantic types to the entities that are mentioned in a text. In the case of fine-grained entity typing (FET), a large set of candidate type labels is considered. Since obtaining sufficient amounts of manual annotations is then prohibitively expensive, FET models are typically trained using distant supervision. In this paper, we propose to improve on this process by pre-training an entity encoder such that embeddings of coreferring entities are more similar to each other than to the embeddings of other entities. The main problem with this strategy, which helps to explain why it has not previously been considered, is that predicted coreference links are often too noisy. We show that this problem can be addressed by using a simple trick: we only consider coreference links that are predicted by two different off-the-shelf systems. With this prudent use of coreference links, our pre-training strategy allows us to improve the state-of-the-art in benchmarks on fine-grained entity typing, as well as traditional entity extraction.
翻訳日:2024-01-30 22:42:36 公開日:2024-01-27
# 時空間的注意に基づく視覚位置認識のための学習シーケンス記述子

Learning Sequence Descriptor based on Spatio-Temporal Attention for Visual Place Recognition ( http://arxiv.org/abs/2305.11467v4 )

ライセンス: Link先を確認
Junqiao Zhao, Fenglin Zhang, Yingfeng Cai, Gengxuan Tian, Wenjie Mu, Chen Ye, Tiantian Feng(参考訳) ビジュアルプレース認識(VPR)は、クエリフレームと同じ場所に位置するジオタグデータベースからフレームを取得することを目的としている。 知覚的エイリアスにおけるVPRの堅牢性を改善するために,シーケンスベースのVPR手法を提案する。 これらの手法はフレームシーケンス間のマッチングや直接検索のためのシーケンス記述子抽出に基づいている。 しかし、前者は一般に一定の速度の仮定に基づいており、これは実際は保持が困難であり、計算コストが高く、シーケンス長が要求される。 後者はこれらの問題を克服しているが、既存のシーケンス記述子は、時間的情報との相互作用なしに複数のフレームの特徴を集約することによって構築されており、時空間的識別を伴う記述子を得ることができない。 具体的には、同じフレーム内の空間的注意を空間的特徴パターンの学習に利用し、異なるフレームの対応する局所領域の注意を時間とともに特徴の持続性や変化を学ぶために利用する。 我々はスライディングウィンドウを用いて時間的注意範囲を制御し、相対的な位置エンコーディングを用いて異なる特徴間の逐次的関係を構築する。 これにより、ディスクリプタはフレームのシーケンスで本質的なダイナミクスをキャプチャできます。難しいベンチマークデータセットに関する理解的な実験では、提案されたアプローチが最新の最先端のメソッドよりも優れています。

Visual Place Recognition (VPR) aims to retrieve frames from a geotagged database that are located at the same place as the query frame. To improve the robustness of VPR in perceptually aliasing scenarios, sequence-based VPR methods are proposed. These methods are either based on matching between frame sequences or extracting sequence descriptors for direct retrieval. However, the former is usually based on the assumption of constant velocity, which is difficult to hold in practice, and is computationally expensive and subject to sequence length. Although the latter overcomes these problems, existing sequence descriptors are constructed by aggregating features of multiple frames only, without interaction on temporal information, and thus cannot obtain descriptors with spatio-temporal discrimination.In this paper, we propose a sequence descriptor that effectively incorporates spatio-temporal information. Specifically, spatial attention within the same frame is utilized to learn spatial feature patterns, while attention in corresponding local regions of different frames is utilized to learn the persistence or change of features over time. We use a sliding window to control the temporal range of attention and use relative positional encoding to construct sequential relationships between different features. This allows our descriptors to capture the intrinsic dynamics in a sequence of frames.Comprehensive experiments on challenging benchmark datasets show that the proposed approach outperforms recent state-of-the-art methods.The code is available at https://github.com/tiev-tongji/Spatio-Temporal-SeqVPR.
翻訳日:2024-01-30 22:41:32 公開日:2024-01-27
# AdaStop:Deep RLエージェントの音響比較のための適応統計的検査

AdaStop: adaptive statistical testing for sound comparisons of Deep RL agents ( http://arxiv.org/abs/2306.10882v2 )

ライセンス: Link先を確認
Timoth\'ee Mathieu, Riccardo Della Vecchia, Alena Shilova, Matheus Medeiros Centa, Hector Kohler, Odalric-Ambrym Maillard, Philippe Preux(参考訳) 近年、科学コミュニティは、特に機械学習の分野で、多くの経験的結果の統計的再現性に疑問を呈している。 この再現性危機を解決するために,複数のアルゴリズムの全体的な性能と確率的回帰を比較する理論的に健全な手法を提案する。 我々はDeep RLで方法論を実証する。 実際、Deep RLアルゴリズムの1つの実行のパフォーマンスはランダムである。 そのため、パフォーマンスを正確に評価するために、いくつかの独立した実行が必要である。 複数のrlアルゴリズムを比較する場合、大きな疑問は、実行回数と、その比較の結果が理論的に健全であることを保証する方法である。 複数のアルゴリズムを一度に比較する場合、各比較の誤差は蓄積され、低いエラー保証を維持するために複数のテスト手順を考慮する必要がある。 複数のグループシーケンシャルテストに基づく新しい統計テストであるAdaStopを紹介する。 アルゴリズムを比較するとき、adastopはできるだけ早く停止する実行数に適応し、統計的に有意な方法で他のアルゴリズムよりも優れた性能を持つアルゴリズムを識別するのに十分な情報を確保します。 AdaStopが(家庭的に)誤りを起こす確率が低いことを理論的、実証的に証明する。 最後に,おもちゃの例やムジョコ環境への挑戦など,複数の深層rlユースケースにおけるadastopの有効性を示す。 AdaStopは統計学への重要な貢献であり、強化学習やその他の領域で行われる計算研究への大きな貢献である。 我々の貢献を要約するために、adastopという公式な統計ツールを紹介します。これは、誰でも実用的な質問に答えられるための公式な接地統計ツールです。

Recently, the scientific community has questioned the statistical reproducibility of many empirical results, especially in the field of machine learning. To solve this reproducibility crisis, we propose a theoretically sound methodology to compare the overall performance of multiple algorithms with stochastic returns. We exemplify our methodology in Deep RL. Indeed, the performance of one execution of a Deep RL algorithm is random. Therefore, several independent executions are needed to accurately evaluate the overall performance. When comparing several RL algorithms, a major question is how many executions must be made and how can we ensure that the results of such a comparison are theoretically sound. When comparing several algorithms at once, the error of each comparison may accumulate and must be taken into account with a multiple tests procedure to preserve low error guarantees. We introduce AdaStop, a new statistical test based on multiple group sequential tests. When comparing algorithms, AdaStop adapts the number of executions to stop as early as possible while ensuring that we have enough information to distinguish algorithms that perform better than the others in a statistical significant way. We prove theoretically and empirically that AdaStop has a low probability of making a (family-wise) error. Finally, we illustrate the effectiveness of AdaStop in multiple Deep RL use-cases, including toy examples and challenging Mujoco environments. AdaStop is the first statistical test fitted to this sort of comparisons: AdaStop is both a significant contribution to statistics, and a major contribution to computational studies performed in reinforcement learning and in other domains. To summarize our contribution, we introduce AdaStop, a formally grounded statistical tool to let anyone answer the practical question: ``Is my algorithm the new state-of-the-art?''.
翻訳日:2024-01-30 22:30:56 公開日:2024-01-27
# ChatGPTはStackOverflowを置き換えることができるか? 大規模言語モデルコード生成のロバスト性と信頼性に関する研究

Can ChatGPT replace StackOverflow? A Study on Robustness and Reliability of Large Language Model Code Generation ( http://arxiv.org/abs/2308.10335v5 )

ライセンス: Link先を確認
Li Zhong, Zilong Wang(参考訳) 近年,大規模言語モデル (LLM) は,自然言語の理解とプログラミングコード生成に極めて優れた能力を示している。 コーディング問題に遭遇する際、LLMに相談するのは、ソフトウェアエンジニアがよく行うプラクティスである。 構文エラーを回避し、コードを意図した意味と整合させる努力がなされているが、LLMからのコード生成の信頼性と堅牢性はまだ十分に研究されていない。 実行可能なコードは、特に現実世界のソフトウェア開発のコンテキストにおいて、信頼性が高く堅牢なコードと等価ではない。 生成されたコードにおけるAPIの誤用は、リソースリークやプログラムクラッシュといった深刻な問題を引き起こす可能性がある。 さらに悪いことに、llmコード生成サービスのユーザは、実際にはこれらのコードに対して最も脆弱な開発者であり、正しいように思える -- 彼らは常にllmがコードを生成するapiに精通していない初心者開発者である。 したがって、LLMが生成したコードの誤用をほとんど知ることができず、現実世界のソフトウェアに適用される誤ったコードをさらに容易にする。 既存のコード評価ベンチマークとデータセットは、コーディング面接のプログラミング質問のような小さなタスクの作成にフォーカスしているが、これは開発者がllmに実際のコーディング支援を求める問題から逸脱している。 そこで本研究では,LLMが生成するコードの信頼性とロバスト性を評価するためのデータセットRobostAPIを提案する。 StackOverflowから24の代表的なJava APIで1208のコーディング質問を収集します。 これらのAPIの一般的な誤用パターンを要約し,現在普及しているLCMを評価した。 GPT-4では,生成コードの62%にAPI誤用があり,実際のソフトウェアにコードが導入されると予期せぬ結果が生じる。

Recently, the large language models (LLMs) have shown extraordinary ability in understanding natural language and generating programming code. It has been a common practice of software engineers to consult LLMs when encountering coding questions. Although efforts have been made to avoid syntax errors and align the code with the intended semantics, the reliability and robustness of the code generationfrom LLMs have not yet been thoroughly studied. The executable code is not equivalent to the reliable and robust code, especially in the context of real-world software development. The misuse of APIs in the generated code could lead to severe problem, such as resource leaks, program crashes. To make things worse, the users of LLM code generation services are actually the developers that are most vulnerable to these code that seems right -- They are always novice developers that are not familiar with the APIs that LLMs generate code for them. Therefore, they could hardly tell the misuse in the code generated by LLMs, which further facilitates the incorrect code applied in real-world software. Existing code evaluation benchmark and datasets focus on crafting small tasks such as programming questions in coding interviews, which however deviates from the problem that developers would ask LLM for real-world coding help. To fill the missing piece, in this work, we propose a dataset RobustAPI for evaluating the reliability and robustness of code generated by LLMs. We collect 1208 coding questions from StackOverflow on 24 representative Java APIs. We summarize thecommon misuse patterns of these APIs and evaluate them oncurrent popular LLMs. The evaluation results show that evenfor GPT-4, 62% of the generated code contains API misuses,which would cause unexpected consequences if the code isintroduced into real-world software.
翻訳日:2024-01-30 22:22:27 公開日:2024-01-27
# Media of Langue: 言語間セマンティックネットワーク/空間を視覚化する辞書

Media of Langue: The dictionary that visualizes Inter-Lingual Semantic Network/Space ( http://arxiv.org/abs/2309.08609v3 )

ライセンス: Link先を確認
Goki Muramoto, Atsuki Sato, Takayoshi Koyama(参考訳) 本稿では,言語間セマンティックネットワーク/空間を可視化する新しい辞書である"Media of Langue"を紹介する。 提案する言語間セマンティックネットワーク/空間は、2つ以上の言語システム間の翻訳の慣行の蓄積からのみ形成され、既存の意味ネットワーク/空間は「イントラ」-言語関係を明示的に用いている。 このネットワーク/空間を可視化することにより、バイリンガルや同義語辞書などの既存の辞書の機能を含む相互翻訳の連鎖によって、複数の単語が同時に意味的位置を示す言語間辞書を実現することができる。 私たちはこのインターフェースを7つの言語ペアに焦点を当てたWebアプリケーションとして実装し公開しました。 本稿では,まず言語間意味ネットワークと空間について,その基本的な特徴と,バイリンガルコーパスからそれを開発する方法について述べるとともに,ユースケースの素早い分析と説明例を用いて,"ラングのメディア"の設計を詳述する。 私たちのウェブサイトはwww.media-of-langue.orgです。 デモビデオはhttps://youtu.be/98lXuX4yjsUで公開されている。

This paper introduces "Media of Langue," a novel dictionary visualizing Inter-lingual semantic network/space. Our proposed Inter-lingual semantic network/space is formed solely from the accumulation of translation practices between two or more language systems, in contrast to existing semantic networks/spaces that explicitly use "intra"-lingual relations. By visualizing this network/space for humans, an Inter-lingual dictionary can be realized that points to the semantic place of many words at once with a chain of mutual translation, which also contains the functions of existing dictionaries such as bilingual and synonym dictionaries. We implemented and published this interface as a web application, focusing on seven language pairs. In this paper, we first describe Inter-lingual semantic network/space with its basic features and the way to develop it from bilingual corpora, then details the design of "Media of Langue," with a quick analysis and illustrative examples of use cases. Our website is www.media-of-langue.org. A demonstration video is available at https://youtu.be/98lXuX4yjsU.
翻訳日:2024-01-30 22:10:55 公開日:2024-01-27
# XpookyNet: 絡み合い検出のための畳み込みニューラルネットワークによる量子システム解析の進歩

XpookyNet: Advancement in Quantum System Analysis through Convolutional Neural Networks for Detection of Entanglement ( http://arxiv.org/abs/2309.03890v3 )

ライセンス: Link先を確認
Ali Kookani, Yousef Mafi, Payman Kazemikhah, Hossein Aghababa, Kazim Fouladi, Masoud Barati(参考訳) 量子情報理論における機械学習モデルの適用は近年急増しており、この分野の本質である絡み合いと量子状態の認識によって推進されている。 しかし、これらの研究のほとんどは既存のプレハブモデルに依存しており、精度が不十分である。 この研究は、量子システムに適したカスタムディープ畳み込みニューラルネットワーク(CNN)モデルを導入することで、このギャップを埋めることを目的としている。 我々の提案したCNNモデルであるXpookyNetは、量子システム固有の複素数データを扱うという課題を効果的に克服し、98.5%の精度を達成する。 このカスタムモデルの開発は、量子状態を解析し理解する能力を高めます。 しかし、まず第一に、量子状態は、完全かつ部分的に絡み合った状態を調べるために、より正確に分類されるべきである。 機械学習と量子情報理論が量子システム分析に統合されると、様々な視点やアプローチが現れ、この分野における革新的な洞察とブレークスルーの道を開く。

The application of machine learning models in quantum information theory has surged in recent years, driven by the recognition of entanglement and quantum states, which are the essence of this field. However, most of these studies rely on existing prefabricated models, leading to inadequate accuracy. This work aims to bridge this gap by introducing a custom deep convolutional neural network (CNN) model explicitly tailored to quantum systems. Our proposed CNN model, the so-called XpookyNet, effectively overcomes the challenge of handling complex numbers data inherent to quantum systems and achieves an accuracy of 98.5%. Developing this custom model enhances our ability to analyze and understand quantum states. However, first and foremost, quantum states should be classified more precisely to examine fully and partially entangled states, which is one of the cases we are currently studying. As machine learning and quantum information theory are integrated into quantum systems analysis, various perspectives, and approaches emerge, paving the way for innovative insights and breakthroughs in this field.
翻訳日:2024-01-30 22:09:12 公開日:2024-01-27
# resfields: 時空間信号のための残留神経場

ResFields: Residual Neural Fields for Spatiotemporal Signals ( http://arxiv.org/abs/2309.03160v3 )

ライセンス: Link先を確認
Marko Mihajlovic, Sergey Prokudin, Marc Pollefeys, Siyu Tang(参考訳) 高周波信号を表すために訓練されたニューラルネットワークのカテゴリであるニューラルフィールドは、シングルマルチ層パーセプトロン(MLP)を介して、符号付き距離(SDF)や放射場(NeRF)といった複雑な3Dデータをモデリングする際の顕著なパフォーマンスから、近年大きな注目を集めている。 しかし、MLPによる信号表現のパワーと単純さにもかかわらず、これらの手法は、MLPの容量が限られているため、大規模で複雑な時間信号のモデリングにおいて、依然として課題に直面している。 本稿では,時間的残留層をニューラルネットワークに組み込むことにより,この制限に対処するための効果的な手法を提案する。 複雑な時間信号を効果的に表現するために設計された新しいネットワークのクラスである。 本稿では,ResFieldの特性を包括的に解析し,学習可能なパラメータの数を減らし,一般化能力を向上する行列分解法を提案する。 重要な点は,既存のmlpベースのニューラルフィールドとシームレスに統合し,2次元映像近似,時間的sdfによる動的形状モデリング,動的nerf再構成など,様々な課題にまたがる結果を一貫して改善することである。 最後に,軽量キャプチャシステムのrgbdカメラから動的3dシーンを撮影することの有効性を示すことで,resfieldsの実用性を示す。

Neural fields, a category of neural networks trained to represent high-frequency signals, have gained significant attention in recent years due to their impressive performance in modeling complex 3D data, such as signed distance (SDFs) or radiance fields (NeRFs), via a single multi-layer perceptron (MLP). However, despite the power and simplicity of representing signals with an MLP, these methods still face challenges when modeling large and complex temporal signals due to the limited capacity of MLPs. In this paper, we propose an effective approach to address this limitation by incorporating temporal residual layers into neural fields, dubbed ResFields. It is a novel class of networks specifically designed to effectively represent complex temporal signals. We conduct a comprehensive analysis of the properties of ResFields and propose a matrix factorization technique to reduce the number of trainable parameters and enhance generalization capabilities. Importantly, our formulation seamlessly integrates with existing MLP-based neural fields and consistently improves results across various challenging tasks: 2D video approximation, dynamic shape modeling via temporal SDFs, and dynamic NeRF reconstruction. Lastly, we demonstrate the practical utility of ResFields by showcasing its effectiveness in capturing dynamic 3D scenes from sparse RGBD cameras of a lightweight capture system.
翻訳日:2024-01-30 22:08:54 公開日:2024-01-27
# HR-Pro:階層的信頼性伝播による時間的行動局所化

HR-Pro: Point-supervised Temporal Action Localization via Hierarchical Reliability Propagation ( http://arxiv.org/abs/2308.12608v3 )

ライセンス: Link先を確認
Huaxin Zhang, Xiang Wang, Xiaohao Xu, Zhiwu Qing, Changxin Gao, Nong Sang(参考訳) PTAL(Point-supervised Temporal Action Localization)はラベル効率学習のための新たな研究方向である。 しかし、現在のメソッドは主にスニペットレベルかインスタンスレベルのネットワークを最適化することに集中しており、両方のレベルでポイントアノテーションの固有の信頼性を無視している。 本稿では、スニペットレベルの識別学習とインスタンスレベルの完全性学習の2つの段階からなる階層的信頼性伝搬(HR-Pro)フレームワークを提案する。 スニペットレベル学習では,オンライン更新メモリを導入し,各クラスに信頼性の高いスニペットプロトタイプを格納する。 次に、Reliability-aware Attention Blockを使用して、スニペットの動画内およびビデオ間の依存関係をキャプチャし、より差別的でロバストなスニペット表現を実現します。 インスタンスレベルの学習では,スニペットとインスタンスを接続する手段として,ポイントベースの提案生成手法を提案する。 多段階の信頼性認識学習により、予測された提案の信頼性と時間的境界をより正確に得ることができる。 私たちのHR-Proは、THUMOS14で平均60.3%の印象的なmAPを含む、複数の挑戦的なベンチマークで最先端のパフォーマンスを実現しています。 特に、我々のHR-Proは、これまでのすべてのポイント管理手法をはるかに上回り、競争力のある完全管理手法よりも優れています。 コードはhttps://github.com/pipixin321/HR-Proで入手できる。

Point-supervised Temporal Action Localization (PSTAL) is an emerging research direction for label-efficient learning. However, current methods mainly focus on optimizing the network either at the snippet-level or the instance-level, neglecting the inherent reliability of point annotations at both levels. In this paper, we propose a Hierarchical Reliability Propagation (HR-Pro) framework, which consists of two reliability-aware stages: Snippet-level Discrimination Learning and Instance-level Completeness Learning, both stages explore the efficient propagation of high-confidence cues in point annotations. For snippet-level learning, we introduce an online-updated memory to store reliable snippet prototypes for each class. We then employ a Reliability-aware Attention Block to capture both intra-video and inter-video dependencies of snippets, resulting in more discriminative and robust snippet representation. For instance-level learning, we propose a point-based proposal generation approach as a means of connecting snippets and instances, which produces high-confidence proposals for further optimization at the instance level. Through multi-level reliability-aware learning, we obtain more reliable confidence scores and more accurate temporal boundaries of predicted proposals. Our HR-Pro achieves state-of-the-art performance on multiple challenging benchmarks, including an impressive average mAP of 60.3% on THUMOS14. Notably, our HR-Pro largely surpasses all previous point-supervised methods, and even outperforms several competitive fully supervised methods. Code will be available at https://github.com/pipixin321/HR-Pro.
翻訳日:2024-01-30 22:07:23 公開日:2024-01-27
# DISCO:ノイズバウンディングボックスを用いた物体検出のための分布対応校正

DISCO: Distribution-Aware Calibration for Object Detection with Noisy Bounding Boxes ( http://arxiv.org/abs/2308.12017v2 )

ライセンス: Link先を確認
Donghao Zhou, Jialin Li, Jinpeng Li, Jiancheng Huang, Qiang Nie, Yong Liu, Bin-Bin Gao, Qiong Wang, Pheng-Ann Heng, Guangyong Chen(参考訳) 大規模な注釈付きデータセットは、効果的なオブジェクト検出器のトレーニングにおいて非常に重要である。 しかし、正確なバウンディングボックスのアノテーションを得るには手間がかかる。 残念なことに、ノイズの多いバウンディングボックスは監視信号を破損させ、検出性能を低下させる可能性がある。 本研究は, 実際の地盤が通常, 騒音の多い地盤に割り当てられた提案の集約領域にあるという観測に動機づけられ, 監視信号の校正のための提案の空間分布をモデル化する分散認識校正(disco)を提案する。 DISCOでは、オブジェクトの潜在的位置を統計的に抽出するために空間分布モデリングを行う。 モデル分布に基づいて,分布認識提案拡張(DA-Aug),分布認識ボックス改良(DA-Ref),分布認識信頼度推定(DA-Est)の3つの手法を開発し,分類,局所化,解釈性の向上を図る。 大規模ノイズ画像データセット(Pascal VOCとMS-COCO)の大規模な実験により、特に高雑音レベルにおいてdisCOが最先端検出性能を達成できることが示されている。

Large-scale well-annotated datasets are of great importance for training an effective object detector. However, obtaining accurate bounding box annotations is laborious and demanding. Unfortunately, the resultant noisy bounding boxes could cause corrupt supervision signals and thus diminish detection performance. Motivated by the observation that the real ground-truth is usually situated in the aggregation region of the proposals assigned to a noisy ground-truth, we propose DIStribution-aware CalibratiOn (DISCO) to model the spatial distribution of proposals for calibrating supervision signals. In DISCO, spatial distribution modeling is performed to statistically extract the potential locations of objects. Based on the modeled distribution, three distribution-aware techniques, i.e., distribution-aware proposal augmentation (DA-Aug), distribution-aware box refinement (DA-Ref), and distribution-aware confidence estimation (DA-Est), are developed to improve classification, localization, and interpretability, respectively. Extensive experiments on large-scale noisy image datasets (i.e., Pascal VOC and MS-COCO) demonstrate that DISCO can achieve state-of-the-art detection performance, especially at high noise levels.
翻訳日:2024-01-30 22:06:57 公開日:2024-01-27
# 最も単純な線形ランプは何ですか?

What is the Simplest Linear Ramp? ( http://arxiv.org/abs/2308.11704v3 )

ライセンス: Link先を確認
Suman Das, Sumit K. Garg, Chethan Krishnan, Arnab Kundu(参考訳) 本稿では、ハミルトニアンの固有値の集合として解釈される実数の決定論的列が、通常ランダム行列スペクトルに関連する特徴を示すことができる条件について論じる。 重要な診断はスペクトルフォームファクター(SFF)であり、SFFの線形ランプはランダムな行列の振る舞いのシグネチャと見なされることが多い。 様々な明示的な例に基づき、線形およびパワーの法則が決定論的スペクトルに現れる条件を観測する。 線形ランプを持つ非常に単純なスペクトルは$E_n \sim \log n$である。 ランプの存在にもかかわらず、これらのシーケンスは従来のレベルの反発を示す$$$$であり、それらの並行性に関する伝承が洗練する必要があることを示している。 しかし、スペクトルに小さなノイズ補正を加えると、(線形)ランプと同様にクリアレベルの反発につながる。 対数スペクトルの顕著な特徴は、それらの線形ランプとは別に、それらはブラックホールの伸びた水平線の通常のモードと密接に関連しており、引数 $s=\beta+it$ の分割関数はリーマンゼータ函数 $\zeta(s)$ である。 直接の結果、スペクトル形式因子は単に$\sim |\zeta(it)|^2$である。 ログスペクトルが線形ランプを持つという観察は、ゼータ関数の成長に関するリンデルの仮説と密接に関連している。 基本数値では、ログプロット上の最良の適合線の勾配が、実際には、第4の十進数に対して$|\zeta(it)|^2$であることを示す。 また、リーマンゼータ関数の和を有限整数 $n$ で切り切ると、高原で無限のランプが終わることに注意する。

We discuss conditions under which a deterministic sequence of real numbers, interpreted as the set of eigenvalues of a Hamiltonian, can exhibit features usually associated to random matrix spectra. A key diagnostic is the spectral form factor (SFF) -- a linear ramp in the SFF is often viewed as a signature of random matrix behavior. Based on various explicit examples, we observe conditions for linear and power law ramps to arise in deterministic spectra. We note that a very simple spectrum with a linear ramp is $E_n \sim \log n$. Despite the presence of ramps, these sequences do $not$ exhibit conventional level repulsion, demonstrating that the lore about their concurrence needs refinement. However, when a small noise correction is added to the spectrum, they lead to clear level repulsion as well as the (linear) ramp. We note some remarkable features of logarithmic spectra, apart from their linear ramps: they are closely related to normal modes of black hole stretched horizons, and their partition function with argument $s=\beta+it$ is the Riemann zeta function $\zeta(s)$. An immediate consequence is that the spectral form factor is simply $\sim |\zeta(it)|^2$. Our observation that log spectra have a linear ramp, is closely related to the Lindel\"of hypothesis on the growth of the zeta function. With elementary numerics, we check that the slope of a best fit line through $|\zeta(it)|^2$ on a log-log plot is indeed $1$, to the fourth decimal. We also note that truncating the Riemann zeta function sum at a finite integer $N$ causes the would-be-eternal ramp to end on a plateau.
翻訳日:2024-01-30 22:06:17 公開日:2024-01-27
# 多変量射影による一般化活性化

Generalized Activation via Multivariate Projection ( http://arxiv.org/abs/2309.17194v2 )

ライセンス: Link先を確認
Jiayun Li, Yuxiao Cheng, Yiwen Lu, Zhuofan Xia, Yilin Mo, Gao Huang(参考訳) 活性化関数はニューラルネットワークに非線形性を導入するために必須であり、Rectified Linear Unit (ReLU)はその単純さと有効性に好まれる。 浅層フィードフォワードニューラルネットワーク(fnn)とプロジェクション勾配降下(pgd)アルゴリズムの1回の反復との構造的類似性に動機づけられ,制約付き最適化問題を解く標準的なアプローチとして,reluをrから非負のハーフラインr+への投影と考える。 この解釈に基づいて、一般化された投影演算子を2次錐投影(SOC)のような凸錐に置換することによりReLUを拡張し、複数の入力と複数の出力を持つ活性化関数である多変量投影ユニット(MPU)に自然に拡張する。 さらに、SOCプロジェクションによって活性化されるFNNが、表現力の観点からReLUを利用するものよりも優れていることを示す数学的証明を提供する。 広く採用されているアーキテクチャの実験的評価により、MPUの有効性はより広範囲の既存のアクティベーション関数と相関する。

Activation functions are essential to introduce nonlinearity into neural networks, with the Rectified Linear Unit (ReLU) often favored for its simplicity and effectiveness. Motivated by the structural similarity between a shallow Feedforward Neural Network (FNN) and a single iteration of the Projected Gradient Descent (PGD) algorithm, a standard approach for solving constrained optimization problems, we consider ReLU as a projection from R onto the nonnegative half-line R+. Building on this interpretation, we extend ReLU by substituting it with a generalized projection operator onto a convex cone, such as the Second-Order Cone (SOC) projection, thereby naturally extending it to a Multivariate Projection Unit (MPU), an activation function with multiple inputs and multiple outputs. We further provide mathematical proof establishing that FNNs activated by SOC projections outperform those utilizing ReLU in terms of expressive power. Experimental evaluations on widely-adopted architectures further corroborate MPU's effectiveness against a broader range of existing activation functions.
翻訳日:2024-01-30 21:59:02 公開日:2024-01-27
# 糖尿病2型糖尿病患者の早期診断のための教師付き学習モデル

Supervised Learning Models for Early Detection of Albuminuria Risk in Type-2 Diabetes Mellitus Patients ( http://arxiv.org/abs/2309.16742v4 )

ライセンス: Link先を確認
Arief Purnama Muharram, Dicky Levenus Tahapary, Yeni Dwi Lestari, Randy Sarayar and Valerie Josephine Dirjayanto(参考訳) 糖尿病、特にT2DMは依然として重要な健康問題である。 糖尿病に関する主要な懸念の1つは、その合併症の発生である。 慢性糖尿病の合併症の一つである糖尿病性腎症は腎臓に悪影響を与え、腎臓の損傷を引き起こす。 糖尿病性腎症の診断には様々な基準が考慮され、そのうちの1つは尿中のアルブミンが病理学的にかなりの量存在することである。 したがって、糖尿病患者におけるアルブミン尿症の早期予測は、タイムリーな予防措置の可能性を秘めている。 本研究の目的は,t2dm患者のアルブミン尿症発症リスクを予測するための教師付き学習モデルの開発である。 教師付き学習アルゴリズムには、Na\"ive Bayes, Support Vector Machine (SVM), decision tree, random forest, AdaBoost, XGBoost, Multi-Layer Perceptron (MLP)が含まれる。 糖尿病合併症リスクファクター184項目からなる個人データセットを,アルゴリズムのトレーニングに使用した。 特徴として10の属性と目標として1の属性(アルブミン尿症)から構成されていた。 実験を行うと、MLPは他のアルゴリズムと比較して優れた性能を示した。 これはそれぞれ0.74と0.75の精度とf1スコアの値を達成し、T2DMの尿失調を予測するためのスクリーニングに適していた。 それでも、モデルの性能を高めるためにさらなる研究が保証されている。

Diabetes, especially T2DM, continues to be a significant health problem. One of the major concerns associated with diabetes is the development of its complications. Diabetic nephropathy, one of the chronic complication of diabetes, adversely affects the kidneys, leading to kidney damage. Diagnosing diabetic nephropathy involves considering various criteria, one of which is the presence of a pathologically significant quantity of albumin in urine, known as albuminuria. Thus, early prediction of albuminuria in diabetic patients holds the potential for timely preventive measures. This study aimed to develop a supervised learning model to predict the risk of developing albuminuria in T2DM patients. The selected supervised learning algorithms included Na\"ive Bayes, Support Vector Machine (SVM), decision tree, random forest, AdaBoost, XGBoost, and Multi-Layer Perceptron (MLP). Our private dataset, comprising 184 entries of diabetes complications risk factors, was used to train the algorithms. It consisted of 10 attributes as features and 1 attribute as the target (albuminuria). Upon conducting the experiments, the MLP demonstrated superior performance compared to the other algorithms. It achieved accuracy and f1-score values as high as 0.74 and 0.75, respectively, making it suitable for screening purposes in predicting albuminuria in T2DM. Nonetheless, further studies are warranted to enhance the model's performance.
翻訳日:2024-01-30 21:58:42 公開日:2024-01-27
# ナビゲーションのためのE(2)-同変グラフ計画

E(2)-Equivariant Graph Planning for Navigation ( http://arxiv.org/abs/2309.13043v2 )

ライセンス: Link先を確認
Linfeng Zhao, Hongyu Li, Taskin Padir, Huaizu Jiang, Lawson L.S. Wong(参考訳) ロボットナビゲーションの学習は、重要かつ困難な課題である。 現実世界のデータセットの不足とコストは、効率的な学習アプローチを必要とします。 本稿では,基準フレーム間のユークリッド変換を起源としパラメータ共有を可能にする2次元ナビゲーション計画において,ユークリッド対称性を利用する。 非構造化環境の課題に対処するために,幾何学グラフの計画としてナビゲーション問題を定式化し,等価メッセージパッシングネットワークを開発し,値反復を行う。 さらに,マルチカメラ入力を処理するために,特徴を所望の空間に持ち上げるための学習可能な同変層を提案する。 構造化された環境と非構造化された環境を含む5つのタスクと、与えられたポイントゴールやセマンティックゴールのマップを総合的に評価する。 実験により, 訓練効率, 安定性, 一般化に有意な効果が確認できた。 詳細はプロジェクトのWebサイト https://lhy.xyz/e2-planning/.com/で確認できる。

Learning for robot navigation presents a critical and challenging task. The scarcity and costliness of real-world datasets necessitate efficient learning approaches. In this letter, we exploit Euclidean symmetry in planning for 2D navigation, which originates from Euclidean transformations between reference frames and enables parameter sharing. To address the challenges of unstructured environments, we formulate the navigation problem as planning on a geometric graph and develop an equivariant message passing network to perform value iteration. Furthermore, to handle multi-camera input, we propose a learnable equivariant layer to lift features to a desired space. We conduct comprehensive evaluations across five diverse tasks encompassing structured and unstructured environments, along with maps of known and unknown, given point goals or semantic goals. Our experiments confirm the substantial benefits on training efficiency, stability, and generalization. More details can be found at the project website: https://lhy.xyz/e2-planning/.
翻訳日:2024-01-30 21:55:51 公開日:2024-01-27
# 不対画像変換を用いたCT再構成カーネルのベンダー間調和化

Inter-vendor harmonization of Computed Tomography (CT) reconstruction kernels using unpaired image translation ( http://arxiv.org/abs/2309.12953v2 )

ライセンス: Link先を確認
Aravind R. Krishnan, Kaiwen Xu, Thomas Li, Chenyu Gao, Lucas W. Remedios, Praitayini Kanakaraj, Ho Hin Lee, Shunxing Bao, Kim L. Sandler, Fabien Maldonado, Ivana Isgum, Bennett A. Landman(参考訳) CT生成における再構成カーネルは、画像のテクスチャを決定する。 再構成カーネルの一貫性は、基礎となるCTテクスチャが定量的画像解析における測定に影響を及ぼすため重要である。 調和化(カーネル変換)は、一貫性のない再構成カーネルによる測定の差を最小限にする。 既存の方法では, 単体または複数メーカーにおけるCTスキャンの調和化が検討されている。 しかし、これらの方法は、空間的および解剖学的に整列した硬質と軟質の再構成カーネルのペアスキャンを必要とする。 さらに、多数のモデルがメーカー内のさまざまなカーネルペアでトレーニングされる必要がある。 本研究では,マルチパスサイクル生成型敵ネットワーク(gan)の構築により,異なるメーカーのレコンストラクションカーネル間の調和を調べるために,非ペア画像変換手法を適用した。 我々は,全国肺スクリーニング試験データセットのsiemensおよびgeベンダーのハードおよびソフトレコンストラクションカーネルを使用している。 各レコンストラクションカーネルから50のスキャンを使用して、マルチパスサイクルganをトレーニングします。 レコンストラクション・カーネルに対するハーモニゼーションの効果を評価するために,siemens hard kernel,ge soft kernel,ge hard kernelから参照siemens soft kernel (b30f)への50のスキャンと,1%の気腫の評価を行った。 我々は,年齢,喫煙状況,性別,ベンダーを考慮した線形モデルに適合し,気腫スコアの変動(ANOVA)の分析を行う。 本手法は気腫測定の差異を最小限に抑え, 年齢, 性別, 喫煙状況, ベンダーが気腫定量に及ぼす影響を明らかにする。

The reconstruction kernel in computed tomography (CT) generation determines the texture of the image. Consistency in reconstruction kernels is important as the underlying CT texture can impact measurements during quantitative image analysis. Harmonization (i.e., kernel conversion) minimizes differences in measurements due to inconsistent reconstruction kernels. Existing methods investigate harmonization of CT scans in single or multiple manufacturers. However, these methods require paired scans of hard and soft reconstruction kernels that are spatially and anatomically aligned. Additionally, a large number of models need to be trained across different kernel pairs within manufacturers. In this study, we adopt an unpaired image translation approach to investigate harmonization between and across reconstruction kernels from different manufacturers by constructing a multipath cycle generative adversarial network (GAN). We use hard and soft reconstruction kernels from the Siemens and GE vendors from the National Lung Screening Trial dataset. We use 50 scans from each reconstruction kernel and train a multipath cycle GAN. To evaluate the effect of harmonization on the reconstruction kernels, we harmonize 50 scans each from Siemens hard kernel, GE soft kernel and GE hard kernel to a reference Siemens soft kernel (B30f) and evaluate percent emphysema. We fit a linear model by considering the age, smoking status, sex and vendor and perform an analysis of variance (ANOVA) on the emphysema scores. Our approach minimizes differences in emphysema measurement and highlights the impact of age, sex, smoking status and vendor on emphysema quantification.
翻訳日:2024-01-30 21:55:13 公開日:2024-01-27
# マルチモデル深層学習を用いた胸部X線自動生成装置

Automated Chest X-Ray Report Generator Using Multi-Model Deep Learning Approach ( http://arxiv.org/abs/2310.05969v3 )

ライセンス: Link先を確認
Arief Purnama Muharram, Hollyana Puteri Haryono, Abassi Haji Juma, Ira Puspasari and Nugraha Priya Utama(参考訳) 胸部X線画像の読みと解釈は、最も放射線技師のルーチンの1つである。 しかし、最も経験豊富な人でさえ、まだ挑戦的です。 そこで我々は,放射線科医の作業を支援するために,多モデル深層学習に基づく胸部x線レポート生成システムを提案する。 提案システムの基本的考え方は,複数の2値分類モデルを用いて複数の異常を検出し,各モデルが1つの異常を1つの画像で検出する。 本研究では,心電図異常の検出を心電図,肺液流,結束のみに限定した。 本システムは,画像前処理,深層学習モデルを用いた異常検出,レポート作成という3つのステップによって放射線学レポートを生成する。 画像前処理ステップの目的は、入力を128×128ピクセルに拡大し、肺の上、下、中の部分をカバーする3つのセグメントにスライスすることで標準化することである。 前処理後、各モデルが画像の分類を行い、異常が検出されない0(ゼロ)と異常が検出された場合1(1)となる。 次に、各モデルの予測出力を連結して'result code'を形成する。 レポート生成ステップにおいて、検出された異常ごとに適切な事前決定文を選択することで、レポートを構成するために「結果コード」を用いる。 胸部X線診断の精度を高めるため, 放射線科医の作業量を削減することを目的とする。

Reading and interpreting chest X-ray images is one of the most radiologist's routines. However, it still can be challenging, even for the most experienced ones. Therefore, we proposed a multi-model deep learning-based automated chest X-ray report generator system designed to assist radiologists in their work. The basic idea of the proposed system is by utilizing multi binary-classification models for detecting multi abnormalities, with each model responsible for detecting one abnormality, in a single image. In this study, we limited the radiology abnormalities detection to only cardiomegaly, lung effusion, and consolidation. The system generates a radiology report by performing the following three steps: image pre-processing, utilizing deep learning models to detect abnormalities, and producing a report. The aim of the image pre-processing step is to standardize the input by scaling it to 128x128 pixels and slicing it into three segments, which covers the upper, lower, and middle parts of the lung. After pre-processing, each corresponding model classifies the image, resulting in a 0 (zero) for no abnormality detected and a 1 (one) for the presence of an abnormality. The prediction outputs of each model are then concatenated to form a 'result code'. The 'result code' is used to construct a report by selecting the appropriate pre-determined sentence for each detected abnormality in the report generation step. The proposed system is expected to reduce the workload of radiologists and increase the accuracy of chest X-ray diagnosis.
翻訳日:2024-01-30 21:47:01 公開日:2024-01-27
# 外科用Gym: 外科用ロボットによる強化学習のための高性能GPUベースプラットフォーム

Surgical Gym: A high-performance GPU-based platform for reinforcement learning with surgical robots ( http://arxiv.org/abs/2310.04676v2 )

ライセンス: Link先を確認
Samuel Schmidgall, Axel Krieger, Jason Eshraghian(参考訳) ロボット支援手術の最近の進歩は、徐々に正確で、効率的で、最小限の侵襲的な処置をもたらし、ロボットによる外科手術の新しい時代を巻き起こした。 これにより、医師は、ロボットと協調して、より小さな切開により、従来のまたは最小の侵襲的な手術を行うことができる。 最近の取り組みは、手術結果の変動を低減し、合併症率を低減できるロボット手術をより自律的にすることに取り組んでいる。 深層強化学習手法は手術の自動化にスケーラブルなソリューションを提供するが、その有効性は、タスクをうまくこなすための事前知識がないため、広範なデータ取得に依存している。 シミュレーションデータ収集の強い性質のため、従来の研究は既存のアルゴリズムをより効率的にすることに注力してきた。 本研究では,シミュレータをより効率的にし,トレーニングデータを従来よりもずっとアクセスしやすくすることに注力する。 手術ロボット学習のためのオープンソースの高性能プラットフォームであるオペレーショナルGymを導入し,物理シミュレーションと強化学習の両方をGPU上で直接行う。 従来の外科的学習プラットフォームと比較して,100~5000倍の速さを示した。 コードはhttps://github.com/SamuelSchmidgall/SurgicalGym.comで公開されている。

Recent advances in robot-assisted surgery have resulted in progressively more precise, efficient, and minimally invasive procedures, sparking a new era of robotic surgical intervention. This enables doctors, in collaborative interaction with robots, to perform traditional or minimally invasive surgeries with improved outcomes through smaller incisions. Recent efforts are working toward making robotic surgery more autonomous which has the potential to reduce variability of surgical outcomes and reduce complication rates. Deep reinforcement learning methodologies offer scalable solutions for surgical automation, but their effectiveness relies on extensive data acquisition due to the absence of prior knowledge in successfully accomplishing tasks. Due to the intensive nature of simulated data collection, previous works have focused on making existing algorithms more efficient. In this work, we focus on making the simulator more efficient, making training data much more accessible than previously possible. We introduce Surgical Gym, an open-source high performance platform for surgical robot learning where both the physics simulation and reinforcement learning occur directly on the GPU. We demonstrate between 100-5000x faster training times compared with previous surgical learning platforms. The code is available at: https://github.com/SamuelSchmidgall/SurgicalGym.
翻訳日:2024-01-30 21:46:19 公開日:2024-01-27
# 低リソース言語 Jailbreak GPT-4

Low-Resource Languages Jailbreak GPT-4 ( http://arxiv.org/abs/2310.02446v2 )

ライセンス: Link先を確認
Zheng-Xin Yong, Cristina Menghini and Stephen H. Bach(参考訳) 大規模言語モデル(LLM)のAI安全性トレーニングと再チーム化は、安全でないコンテンツの生成を緩和する手段である。 本研究は,安全訓練データの言語的不平等から生じる,これらの安全メカニズムの固有の言語横断的脆弱性を,安全でない英語入力を低リソース言語に翻訳することでgpt-4の安全ガードを回避できることを明らかにした。 AdvBenchmarkでは、GPT-4は、安全でない翻訳された入力と関わり、ユーザーの有害な目標に向けて、アクション可能なアイテムを提供する。 他のハイ/ミッドリソース言語は攻撃成功率が著しく低いため、言語間の脆弱性は主に低リソース言語に適用される。 以前は、低リソース言語での限られたトレーニングは、主にこれらの言語の話者に影響し、技術的格差を引き起こしていた。 しかし、我々の研究は重大なシフトを浮き彫りにしている。この不足は、現在すべてのllmsユーザーにリスクをもたらしている。 公開の翻訳APIにより、誰でもLLMの安全性の脆弱性を悪用できる。 それゆえ,我々の研究は,幅広い言語範囲の堅牢な多言語セーフガードを開発するための,より包括的な赤チーム活動を求めている。

AI safety training and red-teaming of large language models (LLMs) are measures to mitigate the generation of unsafe content. Our work exposes the inherent cross-lingual vulnerability of these safety mechanisms, resulting from the linguistic inequality of safety training data, by successfully circumventing GPT-4's safeguard through translating unsafe English inputs into low-resource languages. On the AdvBenchmark, GPT-4 engages with the unsafe translated inputs and provides actionable items that can get the users towards their harmful goals 79% of the time, which is on par with or even surpassing state-of-the-art jailbreaking attacks. Other high-/mid-resource languages have significantly lower attack success rate, which suggests that the cross-lingual vulnerability mainly applies to low-resource languages. Previously, limited training on low-resource languages primarily affects speakers of those languages, causing technological disparities. However, our work highlights a crucial shift: this deficiency now poses a risk to all LLMs users. Publicly available translation APIs enable anyone to exploit LLMs' safety vulnerabilities. Therefore, our work calls for a more holistic red-teaming efforts to develop robust multilingual safeguards with wide language coverage.
翻訳日:2024-01-30 21:44:55 公開日:2024-01-27
# graphmaker: 拡散モデルは大きな帰結グラフを生成することができるか?

GraphMaker: Can Diffusion Models Generate Large Attributed Graphs? ( http://arxiv.org/abs/2310.13833v2 )

ライセンス: Link先を確認
Mufei Li, Eleonora Krea\v{c}i\'c, Vamsi K. Potluru, Pan Li(参考訳) ノード属性を持つ大規模グラフは、様々な現実世界のアプリケーションでますます一般的になっている。 実世界の例を反映した、合成的で属性に富んだグラフの作成は、特に、分析のためのグラフデータ共有と、オリジナルのデータが共有されることを制限する学習モデルの開発に不可欠である。 従来のグラフ生成法は、これらの複雑な構造を扱う能力に制限がある。 拡散モデルの最近の進歩は、属性のないグラフ構造とより小さな分子グラフを生成する可能性を示している。 しかし、これらのモデルは、複雑な属性構造相関とこれらのグラフの大きいサイズのために、大きな属性グラフを生成する際の課題に直面している。 本稿では,大きな属性グラフを生成するために特別に設計された新しい拡散モデルGraphMakerを紹介する。 ノード属性とグラフ構造生成プロセスの様々な組み合わせについて検討し、非同期アプローチが複雑な属性構造相関をより効果的に捉えることを発見した。 エッジのミニバッチ生成によるスケーラビリティの問題にも対処しています。 グラフデータ普及におけるアプローチの実用性を示すために,新しい評価パイプラインを提案する。 この評価は、グラフMakerが生成した合成グラフを用いて、これらのグラフに実際にアクセスすることなく、元のグラフ上で定義されたタスクの競合グラフ機械学習モデルを開発することができることを示している。

Large-scale graphs with node attributes are increasingly common in various real-world applications. Creating synthetic, attribute-rich graphs that mirror real-world examples is crucial, especially for sharing graph data for analysis and developing learning models when original data is restricted to be shared. Traditional graph generation methods are limited in their capacity to handle these complex structures. Recent advances in diffusion models have shown potential in generating graph structures without attributes and smaller molecular graphs. However, these models face challenges in generating large attributed graphs due to the complex attribute-structure correlations and the large size of these graphs. This paper introduces a novel diffusion model, GraphMaker, specifically designed for generating large attributed graphs. We explore various combinations of node attribute and graph structure generation processes, finding that an asynchronous approach more effectively captures the intricate attribute-structure correlations. We also address scalability issues through edge mini-batching generation. To demonstrate the practicality of our approach in graph data dissemination, we introduce a new evaluation pipeline. The evaluation demonstrates that synthetic graphs generated by GraphMaker can be used to develop competitive graph machine learning models for the tasks defined over the original graphs without actually accessing these graphs, while many leading graph generation methods fall short in this evaluation.
翻訳日:2024-01-30 21:34:20 公開日:2024-01-27
# observatory:リレーショナルテーブルの埋め込みを特徴付ける

Observatory: Characterizing Embeddings of Relational Tables ( http://arxiv.org/abs/2310.07736v3 )

ライセンス: Link先を確認
Tianji Cong, Madelon Hulsebos, Zhenjie Sun, Paul Groth, H. V. Jagadish(参考訳) 言語モデルと特殊なテーブル埋め込みモデルは最近、表データよりも多くのタスクで強いパフォーマンスを示している。 研究者や実践者は、これらのモデルを多くの新しいアプリケーションコンテキストで活用したいと熱心に考えている。しかし、これらのモデルの強みと弱さ、そしてそれらが生成するテーブル表現について、試行錯誤に依存するタスクに適したモデルを見つけるプロセスは限られている。 下流利用における非効率性と失敗を最小限に抑えるために、これらのモデルの包括的な理解を得る必要がある。 そこで本稿では,関係表の埋め込み表現を体系的に解析する形式的フレームワークであるobservationを提案する。 関係データモデルの不変性とデータ分布に関する統計的考察の両方により動機づけられた8つの原始的性質と、これらの性質の表埋め込みを定量的に特徴付けるための対応する尺度を定義する。 これらの特性に基づき、言語および表埋め込みモデルを評価する拡張可能なフレームワークを定義する。 データセットの集合を収集し合成し、オブザーバを使用して9つのモデルを分析します。 我々の分析は、テーブル上の学習表現の強みと弱みに関する洞察を提供する。 例えば、列の順序のようなテーブル構造に敏感なモデルもあり、機能的依存関係は埋め込みにはほとんど反映されず、特殊なテーブル埋め込みモデルは比較的低いサンプル忠実度を持つ。 このような洞察は、研究者や実践者がモデルの振る舞いをよりよく予測し、下流のタスクに適したモデルを選択するのに役立つ。

Language models and specialized table embedding models have recently demonstrated strong performance on many tasks over tabular data. Researchers and practitioners are keen to leverage these models in many new application contexts; but limited understanding of the strengths and weaknesses of these models, and the table representations they generate, makes the process of finding a suitable model for a given task reliant on trial and error. There is an urgent need to gain a comprehensive understanding of these models to minimize inefficiency and failures in downstream usage. To address this need, we propose Observatory, a formal framework to systematically analyze embedding representations of relational tables. Motivated both by invariants of the relational data model and by statistical considerations regarding data distributions, we define eight primitive properties, and corresponding measures to quantitatively characterize table embeddings for these properties. Based on these properties, we define an extensible framework to evaluate language and table embedding models. We collect and synthesize a suite of datasets and use Observatory to analyze nine such models. Our analysis provides insights into the strengths and weaknesses of learned representations over tables. We find, for example, that some models are sensitive to table structure such as column order, that functional dependencies are rarely reflected in embeddings, and that specialized table embedding models have relatively lower sample fidelity. Such insights help researchers and practitioners better anticipate model behaviors and select appropriate models for their downstream tasks, while guiding researchers in the development of new models.
翻訳日:2024-01-30 21:31:13 公開日:2024-01-27
# 確率的保証と実践による連続pomdp計画における複雑観測モデルの簡略化

Simplifying Complex Observation Models in Continuous POMDP Planning with Probabilistic Guarantees and Practice ( http://arxiv.org/abs/2311.07745v4 )

ライセンス: Link先を確認
Idan Lev-Yehudi, Moran Barenboim, Vadim Indelman(参考訳) カメラ画像のような高次元かつ連続的な観察で部分的に観測可能なマルコフ決定プロセス(POMDP)を解くことは、多くの実生活ロボットや計画問題に必要である。 近年の研究では、観測モデルとして機械学習確率モデルが提案されているが、オンライン展開には計算コストが大きすぎる。 我々は,ソリューションの品質に関する正式な保証を維持しつつ,簡易な観測モデルを計画に使用することがどのような意味を持つのかという問題に対処する。 我々の主な貢献は、単純化モデルの統計総変動距離に基づく新しい確率的境界である。 提案手法は,PMDP値w.r.t.オリジナルモデルと経験的計画値と簡易モデルとのバウンドを示し,近年の粒子信頼性MDP濃度バウンドの結果を一般化した。 私たちの計算はオフラインとオンラインの2つに分けることができ、計画中にコストのかかるモデルに全くアクセスすることなく正式な保証を得ることができます。 最後に,既存の連続オンラインpomdpソルバのルーチンにバウンドをどのように統合するかをシミュレーションで示す。

Solving partially observable Markov decision processes (POMDPs) with high dimensional and continuous observations, such as camera images, is required for many real life robotics and planning problems. Recent researches suggested machine learned probabilistic models as observation models, but their use is currently too computationally expensive for online deployment. We deal with the question of what would be the implication of using simplified observation models for planning, while retaining formal guarantees on the quality of the solution. Our main contribution is a novel probabilistic bound based on a statistical total variation distance of the simplified model. We show that it bounds the theoretical POMDP value w.r.t. original model, from the empirical planned value with the simplified model, by generalizing recent results of particle-belief MDP concentration bounds. Our calculations can be separated into offline and online parts, and we arrive at formal guarantees without having to access the costly model at all during planning, which is also a novel result. Finally, we demonstrate in simulation how to integrate the bound into the routine of an existing continuous online POMDP solver.
翻訳日:2024-01-30 21:24:11 公開日:2024-01-27
# 知識集中型視覚質問応答におけるGPT-4Vの総合的評価

A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual Question Answering ( http://arxiv.org/abs/2311.07536v2 )

ライセンス: Link先を確認
Yunxin Li, Longyue Wang, Baotian Hu, Xinyu Chen, Wanqi Zhong, Chenyang Lyu, Wei Wang, Min Zhang(参考訳) マルチモーダル大モデル(MLM)の出現は、視覚的理解の分野を著しく進歩させ、視覚的質問応答(VQA)の領域において顕著な能力を提供している。 しかし、真の課題は知識集約型VQAタスクの領域にある。これは視覚要素の認識だけでなく、学習した知識の膨大なリポジトリとともに視覚情報の深い理解を必要とする。 MLM、特に新たに導入されたGPT-4Vの機能を明らかにするために、3つの視点から詳細な評価を行う。 1) モデルが視覚的な手がかりをいかによく理解し、一般的な知識と結びつくかを評価する常識知識 2) 画像から特定の知識を推論するモデルの技能をテストする細かな世界知識は,様々な専門分野においてその熟練度を示す。 3) モデルが推論の論理的説明を提供する能力を検討する意思決定理論を用いた包括的知識は,解釈可能性の観点からより深い分析を促進する。 GPT-4Vは3つ以上のタスクでSOTA性能を達成する。 興味深いことに、私たちはそれを見つけました。 a) gpt-4vは,複合画像を用いた場合の推論及び説明の強化を示す。 b) GPT-4Vは、世界知識を扱う際に深刻な幻覚を生じさせ、この研究の方向性における進歩の必要性を浮き彫りにする。

The emergence of multimodal large models (MLMs) has significantly advanced the field of visual understanding, offering remarkable capabilities in the realm of visual question answering (VQA). Yet, the true challenge lies in the domain of knowledge-intensive VQA tasks, which necessitate not just recognition of visual elements, but also a deep comprehension of the visual information in conjunction with a vast repository of learned knowledge. To uncover such capabilities of MLMs, particularly the newly introduced GPT-4V, we provide an in-depth evaluation from three perspectives: 1) Commonsense Knowledge, which assesses how well models can understand visual cues and connect to general knowledge; 2) Fine-grained World Knowledge, which tests the model's skill in reasoning out specific knowledge from images, showcasing their proficiency across various specialized fields; 3) Comprehensive Knowledge with Decision-making Rationales, which examines model's capability to provide logical explanations for its inference, facilitating a deeper analysis from the interpretability perspective. Extensive experiments indicate that GPT-4V achieves SOTA performance on above three tasks. Interestingly, we find that: a) GPT-4V demonstrates enhanced reasoning and explanation when using composite images as few-shot; b) GPT-4V produces severe hallucinations when dealing with world knowledge, highlighting the future need for advancements in this research direction.
翻訳日:2024-01-30 21:23:27 公開日:2024-01-27
# バイアスは深い:パーソナライズされたllmにおける暗黙の推論バイアス

Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs ( http://arxiv.org/abs/2311.04892v2 )

ライセンス: Link先を確認
Shashank Gupta, Vaishnavi Shrivastava, Ameet Deshpande, Ashwin Kalyan, Peter Clark, Ashish Sabharwal, Tushar Khot(参考訳) 近年、llmが「ヨーダだ。相対性理論を説明せよ」といったプロンプトによって、多様なパーソナラを体現する能力が紹介されている。 この能力はLLMのパーソナライズを可能にし、人間の行動シミュレーションを可能にするが、LLMの能力への影響は未だ不明である。 このギャップを埋めるために,LLMの基本的な推論作業を行う能力に対するペルソナ代入の意図しない副作用について,初めて広範な研究を行った。 本研究は,5つの社会デコグラフィーグループにまたがる24の推論データセット,4つのLDM,19の多様な個人(アジア人など)について検討した。 実験の結果,LLMには様々な社会デミノグラフィーに対する根深い偏見があることが明らかとなった。 彼らは明示的に問うとステレオタイプを過度に拒絶するが(「黒人は数学が苦手か?」)、ペルソナを取り入れながら質問に答えようとすると、ステレオタイプ的で誤った仮定を示す。 これらは、例えば「黒人として、数学の知識が必要なので、この質問に答えられない」という回答の棄却と見なすことができ、概して実質的なパフォーマンス低下をもたらす。 ChatGPT-3.5による我々の実験は、このバイアスがユビキタスであることを示している - 私たちのペルソナの80%はバイアスを示しており、いくつかのデータセットは70%以上のパフォーマンス低下を示しており、特定のグループには特に有害である。 概して、4つのllmは全てこのバイアスを様々な範囲で示しており、gpt-4-turboは最小だが問題のあるバイアス量(ペルソナの42%)を示している。 さらなる分析により、これらのペルソナによるエラーは識別が難しく、回避が困難であることが判明した。 我々の発見は, LLM にペルソナを割り当てるプラクティスが, 根深い偏見を表面化し, 予期せぬ, 有害な副作用を生じさせるという注意深い物語として機能する。

Recent works have showcased the ability of LLMs to embody diverse personas in their responses, exemplified by prompts like 'You are Yoda. Explain the Theory of Relativity.' While this ability allows personalization of LLMs and enables human behavior simulation, its effect on LLMs' capabilities remains unclear. To fill this gap, we present the first extensive study of the unintended side-effects of persona assignment on the ability of LLMs to perform basic reasoning tasks. Our study covers 24 reasoning datasets, 4 LLMs, and 19 diverse personas (e.g. an Asian person) spanning 5 socio-demographic groups. Our experiments unveil that LLMs harbor deep rooted bias against various socio-demographics underneath a veneer of fairness. While they overtly reject stereotypes when explicitly asked ('Are Black people less skilled at mathematics?'), they manifest stereotypical and erroneous presumptions when asked to answer questions while adopting a persona. These can be observed as abstentions in responses, e.g., 'As a Black person, I can't answer this question as it requires math knowledge', and generally result in a substantial performance drop. Our experiments with ChatGPT-3.5 show that this bias is ubiquitous - 80% of our personas demonstrate bias; it is significant - some datasets show performance drops of 70%+; and can be especially harmful for certain groups - some personas suffer statistically significant drops on 80%+ of the datasets. Overall, all 4 LLMs exhibit this bias to varying extents, with GPT-4-Turbo showing the least but still a problematic amount of bias (evident in 42% of the personas). Further analysis shows that these persona-induced errors can be hard-to-discern and hard-to-avoid. Our findings serve as a cautionary tale that the practice of assigning personas to LLMs - a trend on the rise - can surface their deep-rooted biases and have unforeseeable and detrimental side-effects.
翻訳日:2024-01-30 21:22:50 公開日:2024-01-27
# MC-Stereo:ステレオマッチングのためのマルチピーク検索とカスケード検索範囲

MC-Stereo: Multi-peak Lookup and Cascade Search Range for Stereo Matching ( http://arxiv.org/abs/2311.02340v2 )

ライセンス: Link先を確認
Miaojie Feng, Junda Cheng, Hao Jia, Longliang Liu, Gangwei Xu, Qingyong Hu, Xin Yang(参考訳) ステレオマッチングはシーン理解における基本的なタスクである。 近年,反復最適化に基づく手法がステレオマッチングに有望であることが示された。 しかし、現在のイテレーションフレームワークはシングルピークルックアップを採用しており、マルチピーク問題を効果的に処理するのに苦労している。 さらに、イテレーションプロセス中に使われる固定探索範囲は最終収束効果を制限する。 これらの問題に対処するため、MC-Stereoと呼ばれる新しい反復最適化アーキテクチャを提案する。 このアーキテクチャは、マルチピークルックアップ戦略を通したマッチングにおけるマルチピーク分布問題を緩和し、粗大な概念をカスケード探索範囲を介して反復的なフレームワークに統合する。 さらに, 特徴表現学習が学習ベースステレオマッチングの成功に不可欠であることを踏まえ, 特徴抽出器として機能する事前学習ネットワークを導入し, ステレオマッチングパイプラインのフロントエンドを強化する。 これらの改善に基づき、MC-Stereo は KITTI-2012 と KITTI-2015 ベンチマークで利用可能なすべてのメソッドの中で第1位であり、ETH3D の最先端性能も達成している。 コードはhttps://github.com/MiaoJieF/MC-Stereoで入手できる。

Stereo matching is a fundamental task in scene comprehension. In recent years, the method based on iterative optimization has shown promise in stereo matching. However, the current iteration framework employs a single-peak lookup, which struggles to handle the multi-peak problem effectively. Additionally, the fixed search range used during the iteration process limits the final convergence effects. To address these issues, we present a novel iterative optimization architecture called MC-Stereo. This architecture mitigates the multi-peak distribution problem in matching through the multi-peak lookup strategy, and integrates the coarse-to-fine concept into the iterative framework via the cascade search range. Furthermore, given that feature representation learning is crucial for successful learn-based stereo matching, we introduce a pre-trained network to serve as the feature extractor, enhancing the front end of the stereo matching pipeline. Based on these improvements, MC-Stereo ranks first among all publicly available methods on the KITTI-2012 and KITTI-2015 benchmarks, and also achieves state-of-the-art performance on ETH3D. Code is available at https://github.com/MiaoJieF/MC-Stereo.
翻訳日:2024-01-30 21:21:51 公開日:2024-01-27
# gateloop: シーケンスモデリングのためのデータ制御リニアリカバリ

GateLoop: Fully Data-Controlled Linear Recurrence for Sequence Modeling ( http://arxiv.org/abs/2311.01927v2 )

ライセンス: Link先を確認
Tobias Katsch(参考訳) 線形反復は長いシーケンスを効率的にモデリングするための強力なツールであることが証明されている。 本研究では,既存のモデルがその潜在能力を十分に活用できないことを示す。 そこで我々は,データ制御状態遷移を用いて,S4,S5,LRU,RetNetなどの線形リカレントモデルを一般化した基本シーケンスモデルであるGateLoopを開発した。 この理論的な進歩を利用して、GateLoopは自動回帰言語モデリングの既存のモデルよりも経験的に優れている。 提案手法は,高度に最適化された連想スキャン実装を用いて,低コストな$O(l)$リカレントモードと効率的な$O(l \log_{2} l)$並列モードを備える。 さらに、Transformerや最近提案されたアーキテクチャに顕著な意味を持つ、$O(l^2)$サロゲートアテンションモードを導出する。 具体的には,本手法がデータ制御された相対配置情報を注意に提供できることを示す。 既存のモデルの多くは、文脈集約のためのデータ制御累積和のみに依存するが、データ制御された複雑な累積積積積積積積積積を組み込むことは、より強力なシーケンスモデルへの重要なステップであることが示唆される。

Linear Recurrence has proven to be a powerful tool for modeling long sequences efficiently. In this work, we show that existing models fail to take full advantage of its potential. Motivated by this finding, we develop GateLoop, a foundational sequence model that generalizes linear recurrent models such as S4, S5, LRU and RetNet, by employing data-controlled state transitions. Utilizing this theoretical advance, GateLoop empirically outperforms existing models for auto-regressive language modeling. Our method comes with a low-cost $O(l)$ recurrent mode and an efficient $O(l \log_{2} l)$ parallel mode making use of highly optimized associative scan implementations. Furthermore, we derive an $O(l^2)$ surrogate attention mode, revealing remarkable implications for Transformer and recently proposed architectures. Specifically, we prove that our approach can be interpreted as providing data-controlled relative-positional information to Attention. While many existing models solely rely on data-controlled cumulative sums for context aggregation, our findings suggest that incorporating data-controlled complex cumulative products may be a crucial step towards more powerful sequence models.
翻訳日:2024-01-30 21:21:30 公開日:2024-01-27
# 没入環境におけるコラボレーション:課題と解決策

Collaboration in Immersive Environments: Challenges and Solutions ( http://arxiv.org/abs/2311.00689v3 )

ライセンス: Link先を確認
Shahin Doroudian(参考訳) 仮想現実(vr)と拡張現実(ar)ツールは、物理的プロトタイプの使用を回避し、ハイリスクな状況下でトレーニングし、現実やシミュレーションの結果を解釈するために、あらゆるエンジニアリング分野に適用されている。 このような没入的な環境で共有タスクを完了したり、エージェントにタスクを割り当てるには、コラボレーションや共有協調活動が必要である。 没入型環境におけるコラボレーションは、人々がバーチャルおよび拡張現実の環境で対話し、一緒に働く方法を研究することを目的とした、新たな研究分野である。 没入型環境におけるコラボレーションは、コミュニケーション、コーディネーション、社会的存在など様々な要因を含む複雑なプロセスである。 本稿では,没入環境におけるコラボレーション研究の現状について概説する。 vrやarなど、没入環境のさまざまなタイプや、これらの環境で発生するさまざまなタイプのコラボレーションについて論じている。 この論文は、物理的な手がかりの欠如、コストとユーザビリティ、この分野におけるさらなる研究の必要性など、没入環境におけるコラボレーションの課題と限界についても強調する。 全体として、没入型環境におけるコラボレーションは、教育から産業まで幅広い潜在的な応用分野を持つ有望な分野であり、効果的に協力する能力を高めることで、個人とグループの両方に利益をもたらすことができる。

Virtual Reality (VR) and Augmented Reality (AR) tools have been applied in all engineering fields in order to avoid the use of physical prototypes, to train in high-risk situations, and to interpret real or simulated results. In order to complete a shared task or assign tasks to the agents in such immersive environments, collaboration or Shared Cooperative Activities are a necessity. Collaboration in immersive environments is an emerging field of research that aims to study and enhance the ways in which people interact and work together in Virtual and Augmented Reality settings. Collaboration in immersive environments is a complex process that involves different factors such as communication, coordination, and social presence. This paper provides an overview of the current state of research on collaboration in immersive environments. It discusses the different types of immersive environments, including VR and AR, and the different forms of collaboration that can occur in these environments. The paper also highlights the challenges and limitations of collaboration in immersive environments, such as the lack of physical cues, cost and usability and the need for further research in this area. Overall, collaboration in immersive environments is a promising field with a wide range of potential applications, from education to industry, and it can benefit both individuals and groups by enhancing their ability to work together effectively.
翻訳日:2024-01-30 21:21:07 公開日:2024-01-27
# 結合音の分類と局所化ニューラルネットワークにおける特徴集約

Feature Aggregation in Joint Sound Classification and Localization Neural Networks ( http://arxiv.org/abs/2310.19063v2 )

ライセンス: Link先を確認
Brendan Healy, Patrick McNamee, and Zahra Nili Ahmadabadi(参考訳) 本研究では,音声信号分類と局所化ネットワークにおける深層学習手法の適用について述べる。 現在の最先端の音源定位深層学習ネットワークは、そのアーキテクチャにおける特徴集約を欠いている。 特徴集約は、異なる特徴尺度からの情報の統合を可能にし、特徴の堅牢性と不変性を改善することにより、モデル性能を向上させる。 これはSSLネットワークにおいて特に重要であり、直接と間接の音響信号を区別する必要がある。 このギャップに対処するため,コンピュータビジョンニューラルネットワークから信号検出ニューラルネットワークへの特徴集約手法を適用した。 さらに,様々なスケールから特徴をエンコードするための特徴集約のためのスケール符号化ネットワーク(sen)を提案し,より計算効率の高い集約のためにネットワークを圧縮する。 SSLネットワークにおける特徴集約の有効性を評価するため,パスアグリゲーションネットワーク(PANet),重み付き双方向特徴ピラミッドネットワーク(BiFPN),SENの2つのサブアーキテクチャを信号分類のための2つの指標と方向回帰のための2つの指標を用いて評価した。 PANetとBiFPNはコンピュータビジョンモデルで確立されたアグリゲータであり、提案したSENはよりコンパクトなアグリゲータである。 その結果,特徴集約を組み込んだモデルは,音響信号分類と局所化の両方において,制御モデルであるseldnet (sound event localization and detection network) を上回っていることが示唆された。 特徴集約技術は、特に方向回帰において、音検出ニューラルネットワークの性能を高める。

This study addresses the application of deep learning techniques in joint sound signal classification and localization networks. Current state-of-the-art sound source localization deep learning networks lack feature aggregation within their architecture. Feature aggregation enhances model performance by enabling the consolidation of information from different feature scales, thereby improving feature robustness and invariance. This is particularly important in SSL networks, which must differentiate direct and indirect acoustic signals. To address this gap, we adapt feature aggregation techniques from computer vision neural networks to signal detection neural networks. Additionally, we propose the Scale Encoding Network (SEN) for feature aggregation to encode features from various scales, compressing the network for more computationally efficient aggregation. To evaluate the efficacy of feature aggregation in SSL networks, we integrated the following computer vision feature aggregation sub-architectures into a SSL control architecture: Path Aggregation Network (PANet), Weighted Bi-directional Feature Pyramid Network (BiFPN), and SEN. These sub-architectures were evaluated using two metrics for signal classification and two metrics for direction-of-arrival regression. PANet and BiFPN are established aggregators in computer vision models, while the proposed SEN is a more compact aggregator. The results suggest that models incorporating feature aggregations outperformed the control model, the Sound Event Localization and Detection network (SELDnet), in both sound signal classification and localization. The feature aggregation techniques enhance the performance of sound detection neural networks, particularly in direction-of-arrival regression.
翻訳日:2024-01-30 21:20:19 公開日:2024-01-27
# 動的最適輸送問題のための新しいスキップ直交リスト

A Novel Skip Orthogonal List for Dynamic Optimal Transport Problem ( http://arxiv.org/abs/2310.18446v5 )

ライセンス: Link先を確認
Xiaoyang Xu, Hu Ding(参考訳) 最適な輸送は基本的なトピックであり、過去数十年間、最適化コミュニティから多くの注目を集めてきた。 本稿では,データポイントの重みや位置が変化するとき,最適輸送計画を効率的に更新できるかという,興味深い離散的動的最適輸送問題を考える。 この問題は、機械学習のいくつかの応用によって自然に動機付けられている。 例えば、2つの異なるデータセット間の最適な転送コストを計算する必要がある。いくつかのデータポイントに何らかの変更が発生した場合、高複雑性コスト関数を再計算するか、あるいは効率的な動的データ構造によってコストを更新するべきか? これまでいくつかの動的最大フローアルゴリズムが提案されてきたが、我々の知る限りでは、動的最小コストフロー問題の研究はまだかなり限られている。 本稿では,新しい2次元スキップ直交リストと動的木手法を提案する。 我々のアルゴリズムは従来の単純な手法に基づいているが、期待される$O(1)$時間内でピボットする変数を効率よく見つけ、期待される$O(|V|)$時間内で各ピボット操作を完了させることができる。 動的修正は通常大きな変更を起こさないため、我々のアルゴリズムは実際に数回の単純な反復しか必要としない。 したがって、アルゴリズムは、すべての$|e| = o(|v|^2)$変数に対して少なくとも1つのトラバーサルを必要とする最適な輸送コストを再計算するよりも効率的である。 実験により,本アルゴリズムが動的シナリオにおいて既存のアルゴリズムを大きく上回ることを示した。

Optimal transport is a fundamental topic that has attracted a great amount of attention from the optimization community in the past decades. In this paper, we consider an interesting discrete dynamic optimal transport problem: can we efficiently update the optimal transport plan when the weights or the locations of the data points change? This problem is naturally motivated by several applications in machine learning. For example, we often need to compute the optimal transport cost between two different data sets; if some changes happen to a few data points, should we re-compute the high complexity cost function or update the cost by some efficient dynamic data structure? We are aware that several dynamic maximum flow algorithms have been proposed before, however, the research on dynamic minimum cost flow problem is still quite limited, to the best of our knowledge. We propose a novel 2D Skip Orthogonal List together with some dynamic tree techniques. Although our algorithm is based on the conventional simplex method, it can efficiently find the variable to pivot within expected $O(1)$ time, and complete each pivoting operation within expected $O(|V|)$ time where $V$ is the set of all supply and demand nodes. Since dynamic modifications typically do not introduce significant changes, our algorithm requires only a few simplex iterations in practice. So our algorithm is more efficient than re-computing the optimal transport cost that needs at least one traversal over all $|E| = O(|V|^2)$ variables, where $|E|$ denotes the number of edges in the network. Our experiments demonstrate that our algorithm significantly outperforms existing algorithms in the dynamic scenarios.
翻訳日:2024-01-30 21:19:55 公開日:2024-01-27
# 論理制約付き自己回帰モデルに対する擬意味的損失

A Pseudo-Semantic Loss for Autoregressive Models with Logical Constraints ( http://arxiv.org/abs/2312.03905v2 )

ライセンス: Link先を確認
Kareem Ahmed, Kai-Wei Chang, Guy Van den Broeck(参考訳) ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。 これはしばしば、ニューラルネットワークの出力分布に対する記号的制約の可能性を最大化する必要がある。 このような出力分布は典型的には完全分解であると仮定される。 これにより、神経シンボリック学習のより表現力のある自己回帰分布、例えばトランスフォーマーへの適用性が制限される。 そのような分布の下では、単純な制約でさえも計算できる確率は#Pハードである。 出力分布全体の制約を強制するのではなく、ランダムに局所的に近似する手法を提案する。 より正確には、モデルサンプルを中心とした擬似類似度に基づく近似の下で制約の可能性を最適化する。 我々の近似は分解され、解をサブプロブレムに再利用することは、ニューロシンボリックな損失を効率的に計算する主要な要素である。 さらに、確率の局所的、高忠実な近似であり、モデルサンプルの周囲に低いエントロピーとkl-ダイバージェンスを示す。 我々は,スドクと最短経路予測のアプローチを自己回帰生成として評価し,論理的に一貫性のある出力を予測できる基本モデルの能力を大幅に改善することを確認する。 また,大規模言語モデルをデトックスするタスクについても評価した。 有害な単語のリストを許容する単純な制約を用いることで、有害な世代からモデル出力を分離し、従来のアプローチと比較してSoTAの解毒を達成できる。

Neuro-symbolic AI bridges the gap between purely symbolic and neural approaches to learning. This often requires maximizing the likelihood of a symbolic constraint w.r.t the neural network's output distribution. Such output distributions are typically assumed to be fully-factorized. This limits the applicability of neuro-symbolic learning to the more expressive autoregressive distributions, e.g., transformers. Under such distributions, computing the likelihood of even simple constraints is #P-hard. Instead of attempting to enforce the constraint on the entire output distribution, we propose to do so on a random, local approximation thereof. More precisely, we optimize the likelihood of the constraint under a pseudolikelihood-based approximation centered around a model sample. Our approximation is factorized, allowing the reuse of solutions to sub-problems, a main tenet for efficiently computing neuro-symbolic losses. Moreover, it is a local, high-fidelity approximation of the likelihood, exhibiting low entropy and KL-divergence around the model sample. We evaluate our approach on Sudoku and shortest-path prediction cast as autoregressive generation, and observe that we greatly improve upon the base model's ability to predict logically-consistent outputs. We also evaluate on the task of detoxifying large language models. Using a simple constraint disallowing a list of toxic words, we are able to steer the model's outputs away from toxic generations, achieving SoTA detoxification compared to previous approaches.
翻訳日:2024-01-30 21:12:18 公開日:2024-01-27
# 電力系統における動的故障特性評価

Dynamic Fault Characteristics Evaluation in Power Grid ( http://arxiv.org/abs/2311.16522v4 )

ライセンス: Link先を確認
Hao Pei, Si Lin, Chuanfu Li, Che Wang, Haoming Chen, Sizhe Li(参考訳) 運転・保守におけるインテリジェンス度を高めるため,電力系統における故障検出手法を提案する。 提案手法は,まず,ナレッジグラフを結合した特徴抽出手法を用いて障害ノードを識別する。 時間データを組み込むことで、前および後続のノードの状態を利用して、現在の故障検出を支援する。 ノード特性の有効性を検証するために,各ノードからの出力特性の相関解析を行った。 実験の結果,本手法は予測精度の高いシミュレーションシナリオにおいて,故障ノードを正確に検出できることがわかった。 さらに、グラフニューラルネットワークに基づく機能モデリングは、障害がノードにどのように広がるかの質的検証を可能にし、障害ノードの分析に有用な洞察を提供する。

To enhance the intelligence degree in operation and maintenance, a novel method for fault detection in power grids is proposed. The proposed GNN-based approach first identifies fault nodes through a specialized feature extraction method coupled with a knowledge graph. By incorporating temporal data, the method leverages the status of nodes from preceding and subsequent time periods to help current fault detection. To validate the effectiveness of the node features, a correlation analysis of the output features from each node was conducted. The results from experiments show that this method can accurately locate fault nodes in simulation scenarios with a remarkable accuracy. Additionally, the graph neural network based feature modeling allows for a qualitative examination of how faults spread across nodes, which provides valuable insights for analyzing fault nodes.
翻訳日:2024-01-30 21:10:13 公開日:2024-01-27
# 知識グラフに基づく変電所の動的故障解析

Dynamic Fault Analysis in Substations Based on Knowledge Graphs ( http://arxiv.org/abs/2311.13708v4 )

ライセンス: Link先を確認
Weiwei Li, Xing Liu, Wei Wang, Lu Chen, Sizhe Li, Hui Fan(参考訳) 未構造化テキストからサブステーションの隠れ危険を特定することの課題に対処するために,新しい動的解析手法を提案する。 まず、構造化されていないテキストから関連情報を抽出し、Elastic-Search上に構築された柔軟な分散検索エンジンを利用してデータを処理する。 その後、エンジン内のデータをトレーニングするために隠れマルコフモデルが使用される。 viterbiアルゴリズムは隠れた状態シーケンスを解読するために統合され、隠れた危険に関連するエンティティのセグメンテーションとラベル付けが容易になる。 最後のステップでは、neo4jグラフデータベースを使用して、変電所内の隠れた危険を可視化するナレッジグラフを動的に作成する。 提案手法の有効性は,テキスト記録に隠れた危険のある特定の変電所からのケース解析によって実証される。

To address the challenge of identifying hidden danger in substations from unstructured text, a novel dynamic analysis method is proposed. We first extract relevant information from the unstructured text, and then leverages a flexible distributed search engine built on Elastic-Search to handle the data. Following this, the hidden Markov model is employed to train the data within the engine. The Viterbi algorithm is integrated to decipher the hidden state sequences, facilitating the segmentation and labeling of entities related to hidden dangers. The final step involves using the Neo4j graph database to dynamically create a knowledge graph that visualizes hidden dangers in the substation. The effectiveness of the proposed method is demonstrated through a case analysis from a specific substation with hidden dangers revealed in the text records.
翻訳日:2024-01-30 21:09:20 公開日:2024-01-27
# 配電系統における知識グラフ構築

Knowledge Graph Construction in Power Distribution Networks ( http://arxiv.org/abs/2311.08724v3 )

ライセンス: Link先を確認
Xiang Li, Che Wang, Bing Li, Hao Chen, Sizhe Li(参考訳) 本稿では,電力配電網における知識グラフ構築手法を提案する。 本手法は,配信ネットワークの知識グラフとディスパッチテキストの両方において,意味的,音声的,統語的特徴を含む実体的特徴を利用する。 畳み込みニューラルネットワークに基づく拡張モデルを用いて、テキストエンティティを知識グラフ内のエンティティと効果的にマッチングする。 本モデルの有効性は実世界の配電シナリオにおける実験を通して評価される。 その結果,提案モデルがベースラインと比較した場合,様々なエンティティタイプを結合し,電力分布知識グラフ構築タスクにおいて高い総合的精度を示すことが示された。

In this paper, we propose a method for knowledge graph construction in power distribution networks. This method leverages entity features, which involve their semantic, phonetic, and syntactic characteristics, in both the knowledge graph of distribution network and the dispatching texts. An enhanced model based on Convolutional Neural Network, is utilized for effectively matching dispatch text entities with those in the knowledge graph. The effectiveness of this model is evaluated through experiments in real-world power distribution dispatch scenarios. The results indicate that, compared with the baselines, the proposed model excels in linking a variety of entity types, demonstrating high overall accuracy in power distribution knowledge graph construction task.
翻訳日:2024-01-30 21:07:54 公開日:2024-01-27
# クエリベースのAPIレコメンデーションに関する調査

A Survey on Query-based API Recommendation ( http://arxiv.org/abs/2312.10623v3 )

ライセンス: Link先を確認
Moshi Wei, Nima Shiri Harzevili, Alvine Boaye Belle, Junjie Wang, Lin Shi, Jinqiu Yang, Song Wang, Ming Zhen (Jack) Jiang(参考訳) アプリケーションプログラミングインタフェース(API)は、開発者がより効率的にソフトウェアを構築するのを助けるように設計されている。 近年,特定のタスクに対する適切なAPIの再推奨が研究者や開発者の間で注目を集めている。 この研究領域を包括的に理解するため,過去10年間に公開されたAPIレコメンデーション研究を分析した。 私たちの研究は、apiレコメンデーションツールの構造の概要から始まります。 その後,先行研究を体系的に分析し,4つの重要な研究課題を提起する。 RQ1では,これらの論文がAPIレコメンデーション分野に出現する論文の量と会場について検討する。 RQ2では、APIレコメンデーション研究で使われる一般的なデータソースとコレクションメソッドを分類し、まとめる。 RQ3では、APIレコメンデーションアプローチが利用するデータの種類と共通データ表現について検討する。 また,既存の手法による典型的なデータ抽出手法と収集手法についても検討する。 RQ4は、統計モデルとディープラーニングモデルの両方を含む、APIレコメンデーションアプローチが採用するモデリングテクニックを掘り下げている。 さらに,apiレコメンデーションツールの評価に使用される,一般的なランキング戦略と評価指標の概要をまとめる。 調査結果から,さらなる探索を保証し,今後の研究の道筋を示すため,APIレコメンデーション研究における現在の課題を特定した。

Application Programming Interfaces (APIs) are designed to help developers build software more effectively. Recommending the right APIs for specific tasks has gained increasing attention among researchers and developers in recent years. To comprehensively understand this research domain, we have surveyed to analyze API recommendation studies published in the last 10 years. Our study begins with an overview of the structure of API recommendation tools. Subsequently, we systematically analyze prior research and pose four key research questions. For RQ1, we examine the volume of published papers and the venues in which these papers appear within the API recommendation field. In RQ2, we categorize and summarize the prevalent data sources and collection methods employed in API recommendation research. In RQ3, we explore the types of data and common data representations utilized by API recommendation approaches. We also investigate the typical data extraction procedures and collection approaches employed by the existing approaches. RQ4 delves into the modeling techniques employed by API recommendation approaches, encompassing both statistical and deep learning models. Additionally, we compile an overview of the prevalent ranking strategies and evaluation metrics used for assessing API recommendation tools. Drawing from our survey findings, we identify current challenges in API recommendation research that warrant further exploration, along with potential avenues for future research.
翻訳日:2024-01-30 20:58:54 公開日:2024-01-27
# 匿名マルチエージェントパス探索アルゴリズムの改良

Improved Anonymous Multi-Agent Path Finding Algorithm ( http://arxiv.org/abs/2312.10572v4 )

ライセンス: Link先を確認
Zain Alabedeen Ali and Konstantin Yakovlev(参考訳) 我々は、エージェントの集合がグラフに制限され、ゴール頂点の集合が与えられ、これらの頂点のそれぞれがあるエージェントによって到達されなければならない匿名のマルチエージェントパス探索(amapf)問題を考える。 問題となるのは、エージェントへの目標の割り当てと衝突のない経路を見つけることであり、我々は最適メイスパンによる解を見つけることに興味を持っている。 この問題を解決するための確立されたアプローチは、グラフ探索問題の特別なタイプ、すなわち入力されたグラフによって誘導される補助グラフ上の最大フローを見つける問題に還元することである。 前のグラフのサイズは非常に大きくなり、検索がボトルネックになる可能性がある。 そこで本研究では,検索空間を探索するアイデアを,個別の検索状態ではなく,同時にバルク化する,特定の検索アルゴリズムを提案する。 つまり、検索状態の大部分を単一の状態として暗黙的に圧縮し、保存し、拡張することで、ランタイムとメモリの大幅な削減を実現します。 実証的に、結果のAMAPFソルバは最先端の競合と比較して優れたパフォーマンスを示し、よく知られた movingAIベンチマークから利用可能なMAPFインスタンスを30秒未満で解決することができる。

We consider an Anonymous Multi-Agent Path-Finding (AMAPF) problem where the set of agents is confined to a graph, a set of goal vertices is given and each of these vertices has to be reached by some agent. The problem is to find an assignment of the goals to the agents as well as the collision-free paths, and we are interested in finding the solution with the optimal makespan. A well-established approach to solve this problem is to reduce it to a special type of a graph search problem, i.e. to the problem of finding a maximum flow on an auxiliary graph induced by the input one. The size of the former graph may be very large and the search on it may become a bottleneck. To this end, we suggest a specific search algorithm that leverages the idea of exploring the search space not through considering separate search states but rather bulks of them simultaneously. That is, we implicitly compress, store and expand bulks of the search states as single states, which results in high reduction in runtime and memory. Empirically, the resultant AMAPF solver demonstrates superior performance compared to the state-of-the-art competitor and is able to solve all publicly available MAPF instances from the well-known MovingAI benchmark in less than 30 seconds.
翻訳日:2024-01-30 20:58:36 公開日:2024-01-27
# 知識グラフによるアスペクトレベル感性分析

Knowledge Graph Enhanced Aspect-Level Sentiment Analysis ( http://arxiv.org/abs/2312.10048v3 )

ライセンス: Link先を確認
Kavita Sharma, Ritu Patel, Sunita Iyer(参考訳) 本稿では,文脈固有の単語意味の課題に対処し,感情分析を強化する新しい手法を提案する。 BERTモデルの利点と知識グラフに基づく同義データを組み合わせる。 このシナジーは動的注意機構を利用して知識駆動状態ベクトルを開発する。 特定の側面に関連する感情を分類するために、この手法は位置データを統合するメモリバンクを構築する。 データはDCGRUを用いて分析され、特定のアスペクト項に関連する感情特性をピンポイントする。 3つの広く使われているデータセットに対する実験は、感情分類における手法の優れた性能を示す。

In this paper, we propose a novel method to enhance sentiment analysis by addressing the challenge of context-specific word meanings. It combines the advantages of a BERT model with a knowledge graph based synonym data. This synergy leverages a dynamic attention mechanism to develop a knowledge-driven state vector. For classifying sentiments linked to specific aspects, the approach constructs a memory bank integrating positional data. The data are then analyzed using a DCGRU to pinpoint sentiment characteristics related to specific aspect terms. Experiments on three widely used datasets demonstrate the superior performance of our method in sentiment classification.
翻訳日:2024-01-30 20:58:13 公開日:2024-01-27
# 説明一貫性チェックによるChatGPTによるWeb UIテストの修正

Guiding ChatGPT to Fix Web UI Tests via Explanation-Consistency Checking ( http://arxiv.org/abs/2312.05778v2 )

ライセンス: Link先を確認
Zhuolin Xu, Qiushi Li and Shin Hwei Tan(参考訳) Web UIの急速な進化は、UIテストの維持に時間と労力を要する。 Web UIテストの既存のテクニックは、古いものと一致する新しいWebページのターゲット要素を見つけることに重点を置いており、対応する壊れたステートメントを修復することができる。 本稿では,初期局所マッチングに先行する web ui の修正手法を活用し,グローバルマッチングを行うために chatgpt を用いた最初の研究を行う。 キーとなる洞察は、以前のテクニックにマッチする要素のリストが与えられたら、ChatGPTは言語理解を利用してグローバルなビューマッチングを実行し、そのコード生成モデルを使って壊れたステートメントを修正できるということです。 本稿では,ChatGPTにおける幻覚を緩和するため,提案した結果が一致しているかどうかを判定する説明検証器を設計し,自己補正プロンプトを通じてChatGPTにヒントを提供し,その結果をさらに改善する。 本稿では,ChatGPTで強化した手法により,既存のWebテスト修復手法の有効性が向上したことを示す。 また、将来のweb uiテストの修復技術を改善する上で、いくつかの重要な知見を共有しています。

The rapid evolution of Web UI incurs time and effort in maintaining UI tests. Existing techniques in Web UI test repair focus on finding the target elements on the new web page that match the old ones so that the corresponding broken statements can be repaired. We present the first study that investigates the feasibility of using prior Web UI repair techniques for initial local matching and then using ChatGPT to perform global matching. Our key insight is that given a list of elements matched by prior techniques, ChatGPT can leverage the language understanding to perform global view matching and use its code generation model for fixing the broken statements. To mitigate hallucination in ChatGPT, we design an explanation validator that checks whether the provided explanation for the matching results is consistent, and provides hints to ChatGPT via a self-correction prompt to further improve its results. Our evaluation on a widely used dataset shows that the ChatGPT-enhanced techniques improve the effectiveness of existing Web test repair techniques. Our study also shares several important insights in improving future Web UI test repair techniques.
翻訳日:2024-01-30 20:56:13 公開日:2024-01-27
# N$_{2 }$およびO$_{2}$分子のヘリウムイオン効果と偏光効果による励起

Excitations of N$_{2 }$ and O$_{2}$ molecules due to helium ion impact and a polarization effect ( http://arxiv.org/abs/2312.16676v2 )

ライセンス: Link先を確認
M. Gochitashvili, R. Lomsadze, R. Ya. Kezerashvili, I. Noselidze, and M. Schulz(参考訳) ヘリウムイオンと窒素と酸素分子の衝突における解離励起を0.7-10$kevの衝突エネルギーで実験的に研究する。 絶対放射断面積は、窒素および酸素原子およびイオン線の大部分、真空紫外(80-130$ nm)、可視(380-800$ nm)、スペクトル領域で測定され、報告される。 He$^{+}+$N$_{2}$とHe$^{+}+$O$_{2}$の衝突系で実現された過程の顕著な類似性が観察される。 本研究では,he$^{+}+$n$_{2}$衝突系の偏光測定を行う。 励起解離生成物の放出は高分解能光分光法により検出された。 この方法は、入射粒子のエネルギーと分散エネルギーを正確に測定するために、再ターディング電位法と高分解能静電エネルギー解析器を組み込む。 光学分解能の改善により、10$^{-19}$ cm$^{2}$以下で断面を測定することができる。

We present an experimental study of the dissociative excitation in the collision of helium ions with nitrogen and oxygen molecules for collision energy of $0.7-10$ keV. Absolute emission cross sections are measured and reported for most nitrogen and oxygen atomic and ionic lines in wide, vacuum ultraviolet ($80-130$ nm) and visible ($380-800$ nm), spectral regions. Remarkable similarities of the processes realized in He$^{+}+$N$_{2}$ and He$^{+}+$O$_{2}$ collision systems are observed. We present polarization measurements for He$^{+}+$N$_{2}$ collision system. The emission of excited dissociative products was detected using an improved high-resolution optical spectroscopy method. This method incorporates the retarding potential method and a high resolution electrostatic energy analyzer to precisely measure the energy of incident particles and the energy of dispersion. The improvement in the optics resolution allows us to measure the cross section on the order of 10$^{-19}$ cm$^{2}$ or lower.
翻訳日:2024-01-30 20:47:53 公開日:2024-01-27
# 同変量子畳み込みニューラルネットワークにおけるデータ埋め込みの役割

The role of data embedding in equivariant quantum convolutional neural networks ( http://arxiv.org/abs/2312.13250v2 )

ライセンス: Link先を確認
Sreetama Das, Stefano Martina, Filippo Caruso(参考訳) 幾何学的ディープラーニングは、データセットの対称性を使用してニューラルネットワークのパラメータ空間を制約し、トレーニング性と一般化を改善するシナリオを指す。 近年、このアイデアは量子機械学習の分野に取り入れられ、同変量子ニューラルネットワーク(EQNN)が誕生した。 本研究では,画像の分類における古典-量子埋め込みが等変量子畳み込みニューラルネットワーク(EQCNN)の性能に与える影響について検討する。 本稿では,データ埋め込み手法と対称性群の表現の関係を考察し,表現の変化がEQCNNの表現性に与える影響を分析する。 量子畳み込みニューラルネットワーク(QCNN)から得られた3種類の振幅埋め込みと、EQCNNの分類精度を数値的に比較する。 以上の結果から,分類精度は基礎組込み,特に初期トレーニングイテレーションに明らかに依存することが示された。 非同変QCNNに対するEQCNNの分類精度の向上は、使用する特定の埋め込みやデータセットに依存するか、あるいは欠落する可能性がある。 この研究の成果は、幾何学的量子機械学習の文脈におけるデータ埋め込み選択の重要性をより理解するために、コミュニティにとって有用であることが期待される。

Geometric deep learning refers to the scenario in which the symmetries of a dataset are used to constrain the parameter space of a neural network and thus, improve their trainability and generalization. Recently this idea has been incorporated into the field of quantum machine learning, which has given rise to equivariant quantum neural networks (EQNNs). In this work, we investigate the role of classical-to-quantum embedding on the performance of equivariant quantum convolutional neural networks (EQCNNs) for the classification of images. We discuss the connection between the data embedding method and the resulting representation of a symmetry group and analyze how changing representation affects the expressibility of an EQCNN. We numerically compare the classification accuracy of EQCNNs with three different basis-permuted amplitude embeddings to the one obtained from a non-equivariant quantum convolutional neural network (QCNN). Our results show a clear dependence of classification accuracy on the underlying embedding, especially for initial training iterations. The improvement in classification accuracy of EQCNN over non-equivariant QCNN may be present or absent depending on the particular embedding and dataset used. It is expected that the results of this work can be useful to the community for a better understanding of the importance of data embedding choice in the context of geometric quantum machine learning.
翻訳日:2024-01-30 20:44:50 公開日:2024-01-27
# 知識グラフによる質問応答のための意味的パーシング

Semantic Parsing for Question Answering over Knowledge Graphs ( http://arxiv.org/abs/2401.06772v2 )

ライセンス: Link先を確認
Sijia Wei, Wenwen Zhang, Qisong Li, Jiang Zhao(参考訳) 本稿では,知識グラフ上での質問応答をグラフからセグメントにマッピングすることで,質問発話の理解を支援する手法を提案する。 この手法は、これらの発話を解釈するための重要なアプローチである意味解析に焦点を当てている。 課題は、暗黙の実体、関係、時間、順序性、質問内の集約といった複雑な制約を理解し、知識グラフによってコンテキスト化することにある。 本フレームワークはルールベースとニューラルベースを組み合わせて,高精度で包括的なセマンティックセグメント配列を解析・構築する。 これらのシーケンスはセマンティッククエリグラフを形成し、質問発話を効果的に表現する。 我々は,エンコーダ・デコーダニューラルネットワークを用いて,シーケンス生成タスクとして質問意味解析にアプローチし,自然言語質問を意味セグメントに変換する。 さらに,暗黙の実体と関係のパースを強化するために,ナレッジグラフの文脈を活用したグラフニューラルネットワークを取り入れ,質問表現の理解を深めた。 2つのデータセットに対する実験的な評価は,質問応答のセマンティック解析におけるモデルの有効性と優れた性能を示す。

In this paper, we introduce a novel method with graph-to-segment mapping for question answering over knowledge graphs, which helps understanding question utterances. This method centers on semantic parsing, a key approach for interpreting these utterances. The challenges lie in comprehending implicit entities, relationships, and complex constraints like time, ordinality, and aggregation within questions, contextualized by the knowledge graph. Our framework employs a combination of rule-based and neural-based techniques to parse and construct highly accurate and comprehensive semantic segment sequences. These sequences form semantic query graphs, effectively representing question utterances. We approach question semantic parsing as a sequence generation task, utilizing an encoder-decoder neural network to transform natural language questions into semantic segments. Moreover, to enhance the parsing of implicit entities and relations, we incorporate a graph neural network that leverages the context of the knowledge graph to better understand question representations. Our experimental evaluations on two datasets demonstrate the effectiveness and superior performance of our model in semantic parsing for question answering.
翻訳日:2024-01-30 20:37:26 公開日:2024-01-27
# プロトタイピングAGIのためのユニバーサル知識モデルと認知アーキテクチャ

A Universal Knowledge Model and Cognitive Architecture for Prototyping AGI ( http://arxiv.org/abs/2401.06256v3 )

ライセンス: Link先を確認
Artem Sukhobokov, Evgeny Belousov, Danila Gromozdov, Anna Zenger and Ilya Popov(参考訳) この記事では、一般人工知能(AGI)を作成するための42の認知アーキテクチャを特定し、AGIに近づくエージェントが持つべき機能ブロックのセットを提案する。 既存のアーキテクチャのどれにも要求されるブロックセットは見つからないため、この記事では、AGIに近づいたインテリジェントシステムのための新しい認知アーキテクチャを提案する。 As one of the key solutions within the framework of the architecture, a universal method of knowledge representation is proposed, which allows combining various non-formalized, partially and fully formalized methods of knowledge representation in a single knowledge base, such as texts in natural languages, images, audio and video recordings, graphs, algorithms, databases, neural networks, knowledge graphs, ontologies, frames, essence-property-relation models, production systems, predicate calculus models, conceptual models, and others. 様々な知識の断片を組み合わせ、構成するために、注釈付きメタグラフの開発のために構築されたアーキグラフモデルを使用する。 開発中の認知アーキテクチャは、機械意識、機械意識、外部環境との相互作用ブロック、ゴール管理ブロック、感情制御システム、社会的相互作用ブロック、リフレクションブロック、倫理ブロック、ワールドビューブロック、学習ブロック、モニタリングブロック、ステートメントと問題解決ブロック、自己組織化とメタ学習ブロックを含む。

The article identified 42 cognitive architectures for creating general artificial intelligence (AGI) and proposed a set of interrelated functional blocks that an agent approaching AGI in its capabilities should possess. Since the required set of blocks is not found in any of the existing architectures, the article proposes a new cognitive architecture for intelligent systems approaching AGI in their capabilities. As one of the key solutions within the framework of the architecture, a universal method of knowledge representation is proposed, which allows combining various non-formalized, partially and fully formalized methods of knowledge representation in a single knowledge base, such as texts in natural languages, images, audio and video recordings, graphs, algorithms, databases, neural networks, knowledge graphs, ontologies, frames, essence-property-relation models, production systems, predicate calculus models, conceptual models, and others. To combine and structure various fragments of knowledge, archigraph models are used, constructed as a development of annotated metagraphs. As components, the cognitive architecture being developed includes machine consciousness, machine subconsciousness, blocks of interaction with the external environment, a goal management block, an emotional control system, a block of social interaction, a block of reflection, an ethics block and a worldview block, a learning block, a monitoring block, blocks of statement and solving problems, self-organization and meta learning block.
翻訳日:2024-01-30 20:36:32 公開日:2024-01-27
# 良いスコアは良い生成モデルにつながりません

A Good Score Does not Lead to A Good Generative Model ( http://arxiv.org/abs/2401.04856v2 )

ライセンス: Link先を確認
Sixu Li, Shi Chen, Qin Li(参考訳) スコアベース生成モデル(sgms)は、複雑で高次元のデータ分布から高品質なサンプルを生成する能力で有名である。 この手法は経験的成功を享受し、厳密な理論収束特性によって支持されている。 特に,sgmが基底スコア関数をよく学習すれば,接地部に近い分布からサンプルを生成できることが示されており,sgmが生成モデルとしての成功を示唆している。 本論文では反例を挙げる。 サンプル複雑性の議論を通じて、スコア関数をうまく学習する特定の設定を提供する。 しかし、この設定のSGMは、カーネル密度推定の効果を模倣して、訓練データポイントのガウス的ぼかしであるサンプルしか出力できない。 この発見は、sgmが強い記憶効果を示し、生成しないことを示す一連の最近の発見を共鳴させる。

Score-based Generative Models (SGMs) is one leading method in generative modeling, renowned for their ability to generate high-quality samples from complex, high-dimensional data distributions. The method enjoys empirical success and is supported by rigorous theoretical convergence properties. In particular, it has been shown that SGMs can generate samples from a distribution that is close to the ground-truth if the underlying score function is learned well, suggesting the success of SGM as a generative model. We provide a counter-example in this paper. Through the sample complexity argument, we provide one specific setting where the score function is learned well. Yet, SGMs in this setting can only output samples that are Gaussian blurring of training data points, mimicking the effects of kernel density estimation. The finding resonates a series of recent finding that reveal that SGMs can demonstrate strong memorization effect and fail to generate.
翻訳日:2024-01-30 20:34:02 公開日:2024-01-27
# 知識グラフに基づくテキスト分類と注意機構の改善

Text Classification Based on Knowledge Graphs and Improved Attention Mechanism ( http://arxiv.org/abs/2401.03591v2 )

ライセンス: Link先を確認
Siyu Li, Lu Chen, Chenwei Song, Xinyi Liu(参考訳) テキストの意味曖昧さを解消するために,知識グラフと注意力向上機構を革新的に結合したモデルを提案する。 既存の知識ベースを使用して、テキストを関連するコンテキスト概念で強化する。 モデルは文字レベルと単語レベルの両方で動作し、概念を統合することで理解を深める。 まず、インフォメーションゲインをインポートワードの選択に採用する。 次に、エンコーダ-デコーダフレームワークを使用して、関連する概念とともにテキストをエンコードする。 局所注意機構は、各概念の重みを調整し、分類中の無関係または騒がしい概念の影響を低減する。 局所的自己注意機構における注意スコアの計算式を改良し、テキスト中の出現頻度の異なる単語の方が注意スコアが高いことを保証する。 最後に,テキストからの特徴抽出に有効な双方向ゲートリカレントユニットbi-gru(bi-gru)を用いて分類精度を向上させる。 その性能はAGNews、Ohsumed、TagMyNewsなどのデータセットで実証され、それぞれ75.1%、58.7%、68.5%の精度が達成され、タスクの分類の有効性を示している。

To resolve the semantic ambiguity in texts, we propose a model, which innovatively combines a knowledge graph with an improved attention mechanism. An existing knowledge base is utilized to enrich the text with relevant contextual concepts. The model operates at both character and word levels to deepen its understanding by integrating the concepts. We first adopt information gain to select import words. Then an encoder-decoder framework is used to encode the text along with the related concepts. The local attention mechanism adjusts the weight of each concept, reducing the influence of irrelevant or noisy concepts during classification. We improve the calculation formula for attention scores in the local self-attention mechanism, ensuring that words with different frequencies of occurrence in the text receive higher attention scores. Finally, the model employs a Bi-directional Gated Recurrent Unit (Bi-GRU), which is effective in feature extraction from texts for improved classification accuracy. Its performance is demonstrated on datasets such as AGNews, Ohsumed, and TagMyNews, achieving accuracy of 75.1%, 58.7%, and 68.5% respectively, showing its effectiveness in classifying tasks.
翻訳日:2024-01-30 20:33:47 公開日:2024-01-27
# 知識グラフを用いたルールガイド型共同埋め込み学習

Rule-Guided Joint Embedding Learning over Knowledge Graphs ( http://arxiv.org/abs/2401.02968v2 )

ライセンス: Link先を確認
Qisong Li, Ji Lin, Sijia Wei, Neng Liu(参考訳) 近年の研究では、知識グラフの実体と関係を低次元ベクトル空間にマッピングする知識グラフ上の学習の埋め込みに焦点を当てている。 既存のモデルはグラフ構造の側面を主に考慮しているが、より効果的な埋め込み学習に利用できるコンテキスト情報やリテラル情報が豊富に存在する。 本稿では,グラフ畳み込みネットワークを用いて,文脈情報とリテラル情報の両方をエンティティと関係埋め込みに組み込む新しいモデルを提案する。 具体的には,文脈情報について,信頼度と関連度指標を用いてその意義を評価する。 さらに,信頼度メトリクスを計算するための一意なルールベース手法を開発し,リテラル情報の表現から関連度メトリクスを導出する。 2つの確立されたベンチマークデータセットで徹底的な実験を行い、モデル性能を検証する。

Recent studies focus on embedding learning over knowledge graphs, which map entities and relations in knowledge graphs into low-dimensional vector spaces. While existing models mainly consider the aspect of graph structure, there exists a wealth of contextual and literal information that can be utilized for more effective embedding learning. This paper introduces a novel model that incorporates both contextual and literal information into entity and relation embeddings by utilizing graph convolutional networks. Specifically, for contextual information, we assess its significance through confidence and relatedness metrics. In addition, a unique rule-based method is developed to calculate the confidence metric, and the relatedness metric is derived from the literal information's representations. We validate our model performance with thorough experiments on two established benchmark datasets.
翻訳日:2024-01-30 20:32:47 公開日:2024-01-27
# SleepNet:動的ソーシャルネットワークを用いた注意力強化ロバスト睡眠予測

SleepNet: Attention-Enhanced Robust Sleep Prediction using Dynamic Social Networks ( http://arxiv.org/abs/2401.11113v2 )

ライセンス: Link先を確認
Maryam Khalid, Elizabeth B. Klerman, Andrew W. Mchill, Andrew J. K. Phillips, Akane Sano(参考訳) 睡眠行動は健康に大きな影響を与え、身体的および精神的な幸福の指標となる。 したがって、ユビキタスセンサーによる睡眠行動のモニタリングと予測は、睡眠管理と関連する健康状態の追跡の両方に役立つ。 睡眠行動は、人の生理に反映されるが、デジタルメディアの使用、ソーシャルネットワークの感染、周囲の天候といった外部要因にも影響される。 本研究では,グラフネットワークによる睡眠行動の社会的感染を活用し,ユビキタスなモバイル端末やウェアラブル端末から抽出した生理データや電話データと統合し,睡眠継続時間に関する次世代睡眠ラベルを予測するシステムsleepnetを提案する。 我々のアーキテクチャは、注意機構を考案することによって、睡眠行動に関係のない接続を含む大規模グラフの限界を克服する。 広範な実験評価は、モデルにソーシャルネットワークを組み込むことによる改善を強調する。 さらに,実環境下でのシステム性能を示すためにロバストネス解析を行った。 その結果,入力データの摂動に対するスリープネットの安定性が確認された。 さらに、予測性能においてネットワークトポロジの重要性を強調し、高い固有値集中度を持つユーザがデータ摂動に対してより脆弱であることを明らかにする。

Sleep behavior significantly impacts health and acts as an indicator of physical and mental well-being. Monitoring and predicting sleep behavior with ubiquitous sensors may therefore assist in both sleep management and tracking of related health conditions. While sleep behavior depends on, and is reflected in the physiology of a person, it is also impacted by external factors such as digital media usage, social network contagion, and the surrounding weather. In this work, we propose SleepNet, a system that exploits social contagion in sleep behavior through graph networks and integrates it with physiological and phone data extracted from ubiquitous mobile and wearable devices for predicting next-day sleep labels about sleep duration. Our architecture overcomes the limitations of large-scale graphs containing connections irrelevant to sleep behavior by devising an attention mechanism. The extensive experimental evaluation highlights the improvement provided by incorporating social networks in the model. Additionally, we conduct robustness analysis to demonstrate the system's performance in real-life conditions. The outcomes affirm the stability of SleepNet against perturbations in input data. Further analyses emphasize the significance of network topology in prediction performance revealing that users with higher eigenvalue centrality are more vulnerable to data perturbations.
翻訳日:2024-01-30 20:24:36 公開日:2024-01-27
# 知識グラフ推論のための位置感性埋め込み

Location Sensitive Embedding for Knowledge Graph Reasoning ( http://arxiv.org/abs/2401.10893v2 )

ライセンス: Link先を確認
Deepak Banerjee, Anjali Ishaan(参考訳) 埋め込み手法は知識グラフを連続した低次元空間に変換し、推論と完了作業を容易にする。 既存の手法は主に翻訳距離モデルと意味マッチングモデルという2つのタイプに分けられる。 翻訳距離モデルにおける重要な課題は、グラフ内の「ヘッド」と「テール」エンティティを効果的に区別できないことである。 この問題に対処するため,新しい位置感応型埋め込み法 (LSE) を開発した。 LSEは、関係特化写像を用いてヘッダーを革新的に修正し、関係を単なる翻訳ではなく線形変換として概念化する。 lseの表現能力や既存モデルとの接続を含む理論的基礎は徹底的に検討されている。 より合理化された変種 LSE-d も提案され、実際の効率を高めるために変換に対角行列を用いた。 リンク予測のための4つの大規模kgデータセットで実施された実験は、lsedが最先端の関連作品よりも優れているか、あるいは競合していることを示している。

Embedding methods transform the knowledge graph into a continuous, low-dimensional space, facilitating inference and completion tasks. Existing methods are mainly divided into two types: translational distance models and semantic matching models. A key challenge in translational distance models is their inability to effectively differentiate between 'head' and 'tail' entities in graphs. To address this problem, a novel location-sensitive embedding (LSE) method has been developed. LSE innovatively modifies the head entity using relation-specific mappings, conceptualizing relations as linear transformations rather than mere translations. The theoretical foundations of LSE, including its representational capabilities and its connections to existing models, have been thoroughly examined. A more streamlined variant, LSE-d, which employs a diagonal matrix for transformations to enhance practical efficiency, is also proposed. Experiments conducted on four large-scale KG datasets for link prediction show that LSEd either outperforms or is competitive with state-of-the-art related works.
翻訳日:2024-01-30 20:24:04 公開日:2024-01-27
# biodiffusion:生体情報合成のための汎用拡散モデル

BioDiffusion: A Versatile Diffusion Model for Biomedical Signal Synthesis ( http://arxiv.org/abs/2401.10282v2 )

ライセンス: Link先を確認
Xiaomin Li, Mykhailo Sakevych, Gentry Atkinson, Vangelis Metsis(参考訳) バイオメディカルシグナルを含む機械学習タスクは、データ可用性の制限、不均衡データセット、ラベルの複雑さ、測定ノイズの干渉といった問題にしばしば対処している。 これらの課題は、しばしば機械学習アルゴリズムの最適なトレーニングを妨げる。 そこで本研究では,多変量バイオメディカル信号の合成に最適化された拡散に基づく確率モデルであるbiodiffusionを提案する。 biodiffusionは、非条件、ラベル条件、および信号条件生成を含む様々なタスクのための高忠実性、非定常、多変量信号の生成の卓越性を示している。 これらの合成信号を活用することは、上記の課題に対する顕著な解決策を提供する。 本研究は, 合成データ品質の質的, 定量的評価を両立させ, 生体情報に関連付けられた機械学習タスクの精度を高める能力について検討する。 さらに、現在の時系列生成モデルでjuxtaposを行った場合、バイオディフフュージョンがバイオメディカル信号生成品質よりも優れていることを示す実証的な証拠がある。

Machine learning tasks involving biomedical signals frequently grapple with issues such as limited data availability, imbalanced datasets, labeling complexities, and the interference of measurement noise. These challenges often hinder the optimal training of machine learning algorithms. Addressing these concerns, we introduce BioDiffusion, a diffusion-based probabilistic model optimized for the synthesis of multivariate biomedical signals. BioDiffusion demonstrates excellence in producing high-fidelity, non-stationary, multivariate signals for a range of tasks including unconditional, label-conditional, and signal-conditional generation. Leveraging these synthesized signals offers a notable solution to the aforementioned challenges. Our research encompasses both qualitative and quantitative assessments of the synthesized data quality, underscoring its capacity to bolster accuracy in machine learning tasks tied to biomedical signals. Furthermore, when juxtaposed with current leading time-series generative models, empirical evidence suggests that BioDiffusion outperforms them in biomedical signal generation quality.
翻訳日:2024-01-30 20:21:51 公開日:2024-01-27
# 知識グラフ駆動型推薦システムアルゴリズム

Knowledge Graph Driven Recommendation System Algorithm ( http://arxiv.org/abs/2401.10244v2 )

ライセンス: Link先を確認
Chaoyang Zhang, Yanan Li, Shen Chen, Siwei Fan, Wei Li(参考訳) 本稿では、知識グラフ(KG)情報を利用してパーソナライズされたレコメンデーションの精度と有効性を向上する、KGLNと呼ばれる新しいグラフニューラルネットワークベースのレコメンデーションモデルを提案する。 まず,単層ニューラルネットワークを用いてグラフ内の個々のノード特徴をマージし,影響因子を組み込むことで隣接エンティティの集約重みを調整した。 モデルは、イテレーションを通じて単一のレイヤから複数のレイヤへと進化し、エンティティが広範囲にわたるマルチオーダー関連エンティティ情報にアクセスできるようにする。 最後のステップでは、エンティティとユーザの機能を統合してレコメンデーションスコアを生成する。 モデルの性能は, 各種凝集法と影響因子の比較により評価した。 MovieLen-1M と Book-Crossing のデータセットに対するテストでは、KGLN は ROC 曲線 (AUC) の改善率 0.3% から 5.9% と 1.1% から 8.2% を示しており、これは LibFM、DeepFM、Wide&Deep、RippleNet といった既存のベンチマーク手法よりも優れている。

In this paper, we propose a novel graph neural network-based recommendation model called KGLN, which leverages Knowledge Graph (KG) information to enhance the accuracy and effectiveness of personalized recommendations. We first use a single-layer neural network to merge individual node features in the graph, and then adjust the aggregation weights of neighboring entities by incorporating influence factors. The model evolves from a single layer to multiple layers through iteration, enabling entities to access extensive multi-order associated entity information. The final step involves integrating features of entities and users to produce a recommendation score. The model performance was evaluated by comparing its effects on various aggregation methods and influence factors. In tests over the MovieLen-1M and Book-Crossing datasets, KGLN shows an Area Under the ROC curve (AUC) improvement of 0.3% to 5.9% and 1.1% to 8.2%, respectively, which is better than existing benchmark methods like LibFM, DeepFM, Wide&Deep, and RippleNet.
翻訳日:2024-01-30 20:21:34 公開日:2024-01-27
# Gaussian Body: 3d Gaussian Splattingによる衣服の復元

GaussianBody: Clothed Human Reconstruction via 3d Gaussian Splatting ( http://arxiv.org/abs/2401.09720v2 )

ライセンス: Link先を確認
Mengtian Li, Shengxiang Yao, Zhifeng Xie, Keyu Chen(参考訳) そこで本研究では,3次元ガウシアンスプレイティングをベースとした,ガウシアンボディと呼ばれる新しい布地復元手法を提案する。 3D Gaussian Splattingは、高価なニューラルラディアンスベースモデルと比較して、トレーニング時間とレンダリング品質の点で、最近優れたパフォーマンスを示している。 しかし, 動的復元問題に対する静的な3次元ガウススティングモデルの適用は, 複雑な非剛性変形とリッチな布の細部により容易ではない。 これらの課題に対処するため,本手法では,標準空間と観測空間をまたいで動的ガウスを関連付けるために,明示的なポーズ誘導変形を考える。 訓練中,不正確な初期推定を補償するためのポーズ回帰を更新するポーズ改善戦略と,回帰点雲の密度を高めるためのスプリット・ア・スケール機構を提案する。 提案手法は, ダイナミックな布を被る人体に対して, 鮮明な幾何学的再構成とともに, 高品質な細部を施した, 最先端のフォトリアリスティックなノベルビューレンダリングを実現できることを示す。

In this work, we propose a novel clothed human reconstruction method called GaussianBody, based on 3D Gaussian Splatting. Compared with the costly neural radiance based models, 3D Gaussian Splatting has recently demonstrated great performance in terms of training time and rendering quality. However, applying the static 3D Gaussian Splatting model to the dynamic human reconstruction problem is non-trivial due to complicated non-rigid deformations and rich cloth details. To address these challenges, our method considers explicit pose-guided deformation to associate dynamic Gaussians across the canonical space and the observation space, introducing a physically-based prior with regularized transformations helps mitigate ambiguity between the two spaces. During the training process, we further propose a pose refinement strategy to update the pose regression for compensating the inaccurate initial estimation and a split-with-scale mechanism to enhance the density of regressed point clouds. The experiments validate that our method can achieve state-of-the-art photorealistic novel-view rendering results with high-quality details for dynamic clothed human bodies, along with explicit geometry reconstruction.
翻訳日:2024-01-30 20:21:10 公開日:2024-01-27
# Calderbank-Shor-Steane符号を用いた誤り訂正能動的量子同型暗号

Error correctable efficient quantum homomorphic encryption using Calderbank-Shor-Steane codes ( http://arxiv.org/abs/2401.08059v2 )

ライセンス: Link先を確認
IlKwon Sohn, Boseon Kim, Kwangil Bae, Wonhyuk Lee(参考訳) フォールトトレラントでセキュアなクラウド量子コンピューティングを実現するには、量子誤り訂正符号と量子準同型暗号スキームの統合が不可欠である。 しかしながら、これらのスキームで発生した大きなオーバーヘッド課題は、その効率を必要としない。 本研究では,量子誤り訂正符号に基づく効率的な量子準同型暗号を開発した。 提案手法では、暗号化と符号化を実現するために1つの符号化プロセスを用いた。 長い量子エラー訂正コードを使用することで、セキュリティとエラー訂正の能力が向上した。 置換キーに基づいて、組み合わせの数は従来の2^n$と比べ指数関数的に増加し、n^n$となった。

To achieve fault-tolerant and secure cloud quantum computing, integrating quantum error correction codes and quantum homomorphic encryption schemes is essential. However, significant overhead challenges incurred in these schemes necessitate their efficiency. This study developed an efficient quantum homomorphic encryption based on quantum error correction codes. The proposed encryption scheme used a single encoding process to accomplish encryption and encoding. Using a longer quantum error-correcting code simultaneously improved the security and error correction capabilities. Based on the permutation key, the number of combinations exhibited an exponential growth of $n^n$ compared with the conventional order of $2^n$.
翻訳日:2024-01-30 20:20:29 公開日:2024-01-27
# Coverage Axis++: 3次元形状骨格化のための効率的な内点選択

Coverage Axis++: Efficient Inner Point Selection for 3D Shape Skeletonization ( http://arxiv.org/abs/2401.12946v3 )

ライセンス: Link先を確認
Zimeng Wang, Zhiyang Dou, Rui Xu, Cheng Lin, Yuan Liu, Xiaoxiao Long, Shiqing Xin, Lingjie Liu, Taku Komura, Xiaoming Yuan, Wenping Wang(参考訳) 本稿では,3次元形状スケルトン化の新規かつ効率的なアプローチであるカバレッジaxis++を紹介する。 このタスクの現在の最先端のアプローチは、しばしば入力の防水性に依存するか、あるいはかなりの計算コストに悩まされるため、実用性が制限される。 この課題に対処するために、coverture axis++は、様々な形状表現の計算強度を著しく軽減しながら、内側軸変換(mat)の高精度近似を提供する、骨格点を選択するヒューリスティックなアルゴリズムを提案する。 形状被覆と一様性の両方を考慮し, 単純かつ効果的な方略を導入し, 骨格点を導出する。 選択手順は、支配的な中間球を選好しながら形状構造との整合性を強制し、MATの観点からはコンパクトな基底形状表現を導入する。 その結果、Coverage Axis++は、様々な形状表現(例えば、水密メッシュ、三角形のスープ、点雲)のスケルトン化、骨格点数の指定、ハイパーパラメータの少ない、再現精度の向上による高効率な計算を可能にした。 幅広い3d形状の広範囲な実験は、カバレッジaxis++の効率と有効性を検証する。 論文が公開されたら、コードは公開される予定だ。

We introduce Coverage Axis++, a novel and efficient approach to 3D shape skeletonization. The current state-of-the-art approaches for this task often rely on the watertightness of the input or suffer from substantial computational costs, thereby limiting their practicality. To address this challenge, Coverage Axis++ proposes a heuristic algorithm to select skeletal points, offering a high-accuracy approximation of the Medial Axis Transform (MAT) while significantly mitigating computational intensity for various shape representations. We introduce a simple yet effective strategy that considers both shape coverage and uniformity to derive skeletal points. The selection procedure enforces consistency with the shape structure while favoring the dominant medial balls, which thus introduces a compact underlying shape representation in terms of MAT. As a result, Coverage Axis++ allows for skeletonization for various shape representations (e.g., water-tight meshes, triangle soups, point clouds), specification of the number of skeletal points, few hyperparameters, and highly efficient computation with improved reconstruction accuracy. Extensive experiments across a wide range of 3D shapes validate the efficiency and effectiveness of Coverage Axis++. The code will be publicly available once the paper is published.
翻訳日:2024-01-30 20:16:05 公開日:2024-01-27
# 確率的最適制御問題を解くためのディープマルチタスクニューラルネットワーク

Deep multitask neural networks for solving some stochastic optimal control problems ( http://arxiv.org/abs/2401.12923v2 )

ライセンス: Link先を確認
Christian Yeo(参考訳) 関連する後方動的プログラミング原理を用いて確率的最適制御問題を解決する既存のニューラルネットワークベースのアプローチのほとんどは、基礎となる状態変数をシミュレートする能力に依存している。 しかし、いくつかの問題では、このシミュレーションは実現不可能であり、状態変数空間の離散化と、各データポイントに対して1つのニューラルネットワークをトレーニングする必要がある。 このアプローチは、大きな状態変数空間を扱うときに計算量的に非効率になる。 本稿では,この種の確率的最適制御問題のクラスを考察し,マルチタスクニューラルネットワークを用いた効果的な解法を提案する。 マルチタスクニューラルネットワークをトレーニングするために,タスク間の学習を動的にバランスさせる新しいスキームを導入する。 実世界のデリバティブ価格問題に関する数値実験を通じて,本手法が最先端手法より優れていることを示す。

Most existing neural network-based approaches for solving stochastic optimal control problems using the associated backward dynamic programming principle rely on the ability to simulate the underlying state variables. However, in some problems, this simulation is infeasible, leading to the discretization of state variable space and the need to train one neural network for each data point. This approach becomes computationally inefficient when dealing with large state variable spaces. In this paper, we consider a class of this type of stochastic optimal control problems and introduce an effective solution employing multitask neural networks. To train our multitask neural network, we introduce a novel scheme that dynamically balances the learning across tasks. Through numerical experiments on real-world derivatives pricing problems, we prove that our method outperforms state-of-the-art approaches.
翻訳日:2024-01-30 20:15:43 公開日:2024-01-27
# CodeTailor:パーソナライズされたパーソンズパズルは、学習を支援するAI生成ソリューションよりも優先される

CodeTailor: Personalized Parsons Puzzles are Preferred Over AI-Generated Solutions to Support Learning ( http://arxiv.org/abs/2401.12125v2 )

ライセンス: Link先を確認
Xinying Hou, Zihan Wu, Xu Wang, Barbara J. Ericson(参考訳) プログラミングは初心者にとって難しいことであり、大規模に高品質で包括的でタイムリーなサポートを提供することは難しい。 生成AIとその製品であるChatGPTは、ほとんどの導入プログラミング問題に対するソリューションを作成することができる。 しかし、学生はコード生成や宿題の完了にこれらのツールを過度に頼り、エンゲージメントが低下し学習が制限される可能性がある。 本研究では,大規模言語モデル(LLM)を活用するシステムであるCodeTailorを紹介する。 CodeTailorは、苦労している学生を支援するパーソンズパズルをパーソナライズする。 パーソンズパズルでは、生徒がミックスアップされたコードブロックを正しい順序で配置して解決する。 800の不正な学生コードによる技術的評価により、CodeTailorは学生に高品質な(正確でパーソナライズされ、簡潔な)パーソンズパズルを効率的に作成できることを示した。 CodeTailorを使った18人の初心者プログラマによる実験では、学生はCodeTailorをよりエンゲージメントであると評価し、CodeTailorを使用した後、サポート対象のプラクティスから新たに獲得した要素を、AI生成ソリューションを単に受け取ったときと比較して思い出させた。 さらに、ほとんどの学生は、学習を支援するAI生成ソリューションを受けるよりも、CodeTailorを使うことを好む。 質的な観察とインタビューは、ソリューション構築についての考えを強調し、学習の継続性を促進し、反映を促進し、学生の信頼を高めることなど、CodeTailorの利点を示す証拠も提供した。 我々は、生産的AIを適用し、アクティブな学習機会を促進し、過度な信頼性を最小化するための将来の設計アイデアを提案する。

Programming can be challenging for novices, and it is difficult to provide high-quality, comprehensive, and timely support at scale. Generative AI and its products, like ChatGPT, can create a solution for most introductory programming problems. However, students may become overly reliant on these tools for quick code generation and homework completion, which might cause reduced engagement and limited learning. In this work, we present CodeTailor, a system that leverages large language models (LLMs) while still encouraging students' cognitive engagement. CodeTailor provides a personalized Parsons puzzle to support struggling students. In a Parsons puzzle, students place mixed-up code blocks in the correct order to solve it. A technical evaluation with 800 incorrect student code demonstrated that CodeTailor can efficiently create high-quality (correct, personalized, and concise) Parsons puzzles for students. In a within-subjects experiment with 18 novice programmers, students rated using CodeTailor as more engaging, and they recalled more newly acquired elements from the supported practice in the posttest after using CodeTailor, compared to when they simply received an AI-generated solution. In addition, most students preferred to use CodeTailor over receiving an AI-generated solution to support learning. Qualitative observations and interviews also provided evidence for the benefits of CodeTailor, including emphasizing thinking about solution construction, fostering continuity in learning, promoting reflection, and boosting student confidence. We conclude by suggesting future design ideas for applying generative AI to facilitate active learning opportunities and minimize over-reliance.
翻訳日:2024-01-30 20:13:54 公開日:2024-01-27
# 機械学習ベースのiotエコシステムにおける無秩序な攻撃: その背後にある調査とオープンライブラリ

Unraveling Attacks in Machine Learning-based IoT Ecosystems: A Survey and the Open Libraries Behind Them ( http://arxiv.org/abs/2401.11723v2 )

ライセンス: Link先を確認
Chao Liu, Boxi Chen, Wei Shao, Chris Zhang, Kelvin Wong, Yi Zhang(参考訳) iot(internet of things, モノのインターネット)の出現は、前例のない接続の時代をもたらし、推定80億のスマートデバイスが2025年末までに稼働すると予想されている。 これらのデバイスは、さまざまなスマートアプリケーションを促進し、さまざまなドメインにわたる生活の質と効率を高める。 機械学習(ML)は、IoT生成データの解析だけでなく、IoTエコシステム内のさまざまなアプリケーションにも重要な技術である。 例えば、MLはIoTデバイス認識、異常検出、さらには悪意のあるアクティビティの発見にも有用である。 本稿では,MLによるIoTのさまざまな側面への統合によるセキュリティの脅威を包括的に調査し,メンバシップ推論,敵対的回避,再構築,プロパティ推論,モデル抽出,毒殺攻撃など,さまざまな攻撃タイプにまたがる。 これまでの研究とは異なり、我々の研究は総合的な視点を提供し、敵のモデル、攻撃目標、主要なセキュリティ属性(機密性、可用性、完全性)などの基準に基づいて脅威を分類する。 IoT環境でのML攻撃の基盤となる技術を調べ、そのメカニズムと影響を批判的に評価する。 さらに,本研究では,著者と第三者の65の図書館を徹底的に評価し,モデルとデータプライバシの保護における役割を評価した。 これらのライブラリの可用性とユーザビリティを強調し、進化する脅威の風景に対する防御を強化するために必要なツールをコミュニティに提供することを目指している。 総合的なレビューと分析を通じて、この論文は、IoTにおける急速に拡大する人工知能分野において、MLモデルとデータをセキュアにするための貴重な洞察と実践的なソリューションを提供する、MLベースのIoTセキュリティに関する継続的な議論に貢献することを目指している。

The advent of the Internet of Things (IoT) has brought forth an era of unprecedented connectivity, with an estimated 80 billion smart devices expected to be in operation by the end of 2025. These devices facilitate a multitude of smart applications, enhancing the quality of life and efficiency across various domains. Machine Learning (ML) serves as a crucial technology, not only for analyzing IoT-generated data but also for diverse applications within the IoT ecosystem. For instance, ML finds utility in IoT device recognition, anomaly detection, and even in uncovering malicious activities. This paper embarks on a comprehensive exploration of the security threats arising from ML's integration into various facets of IoT, spanning various attack types including membership inference, adversarial evasion, reconstruction, property inference, model extraction, and poisoning attacks. Unlike previous studies, our work offers a holistic perspective, categorizing threats based on criteria such as adversary models, attack targets, and key security attributes (confidentiality, availability, and integrity). We delve into the underlying techniques of ML attacks in IoT environment, providing a critical evaluation of their mechanisms and impacts. Furthermore, our research thoroughly assesses 65 libraries, both author-contributed and third-party, evaluating their role in safeguarding model and data privacy. We emphasize the availability and usability of these libraries, aiming to arm the community with the necessary tools to bolster their defenses against the evolving threat landscape. Through our comprehensive review and analysis, this paper seeks to contribute to the ongoing discourse on ML-based IoT security, offering valuable insights and practical solutions to secure ML models and data in the rapidly expanding field of artificial intelligence in IoT.
翻訳日:2024-01-30 20:09:56 公開日:2024-01-27
# コードクローン検出における大規模言語モデルの有効性の検討

Investigating the Efficacy of Large Language Models for Code Clone Detection ( http://arxiv.org/abs/2401.13802v2 )

ライセンス: Link先を確認
Mohamad Khajezade, Jie JW Wu, Fatemeh Hendijani Fard, Gema Rodr\'iguez-P\'erez, Mohamed Sami Shehata(参考訳) 大規模言語モデル(LLM)は、コード生成など様々な自然言語処理やソフトウェア工学タスクにおいて顕著な成功を収めている。 llmは主にプロンプトベースのzero/few-shotパラダイムで使われ、タスクの達成をモデルに導く。 GPTベースのモデルは、コードコメント生成やテスト生成といったタスクのために研究されている人気モデルの1つである。 これらのタスクは‘生成’タスクです。 しかし、プロンプトベースパラダイムを用いた分類のような「非生成的」なタスクにおけるLLMの使用に関する限定的な研究がある。 本研究では,非生成タスクであるコードクローン検出(ccd)におけるllmの適用性について検討した。 CodeNetから派生した単言語および多言語CCDデータセットを構築することにより、まずChatGPTを使用して、ゼロショット設定でJava-JavaとJava-RubyペアのType-4コードクローンを検出する2つの異なるプロンプトを調査した。 CCDにおけるChatGPTの長所と短所を理解するために分析を行った。 ChatGPTは、F1スコアが0.877に達し、F1スコアが0.878であるモノリンガルCCDの完全微調整モデルに匹敵する性能を達成する。 また,ChatGPTの性能には,問題のプロンプトや難易度が影響している。 最後に、初期分析に基づく洞察と今後の方向性を提供する。

Large Language Models (LLMs) have demonstrated remarkable success in various natural language processing and software engineering tasks, such as code generation. The LLMs are mainly utilized in the prompt-based zero/few-shot paradigm to guide the model in accomplishing the task. GPT-based models are one of the popular ones studied for tasks such as code comment generation or test generation. These tasks are `generative' tasks. However, there is limited research on the usage of LLMs for `non-generative' tasks such as classification using the prompt-based paradigm. In this preliminary exploratory study, we investigated the applicability of LLMs for Code Clone Detection (CCD), a non-generative task. By building a mono-lingual and cross-lingual CCD dataset derived from CodeNet, we first investigated two different prompts using ChatGPT to detect Type-4 code clones in Java-Java and Java-Ruby pairs in a zero-shot setting. We then conducted an analysis to understand the strengths and weaknesses of ChatGPT in CCD. ChatGPT surpasses the baselines in cross-language CCD attaining an F1-score of 0.877 and achieves comparable performance to fully fine-tuned models for mono-lingual CCD, with an F1-score of 0.878. Also, the prompt and the difficulty level of the problems has an impact on the performance of ChatGPT. Finally we provide insights and future directions based on our initial analysis
翻訳日:2024-01-30 20:01:35 公開日:2024-01-27
# 現代の量子ハードウェアを強調する - パフォーマンス評価と実行洞察

Stressing Out Modern Quantum Hardware: Performance Evaluation and Execution Insights ( http://arxiv.org/abs/2401.13793v2 )

ライセンス: Link先を確認
Aliza U. Siddiqui, Kaitlin Gili, and Chris Ballance(参考訳) 量子ハードウェアは急速に進歩しており、この進歩とともに、機能的に複雑なアルゴリズムを用いてこれらのマシンの能力に挑戦することが不可欠である。 そうすることで、現代の量子ハードウェアの現在の能力と、そのブレークポイントがどこにあるのか、直接的な洞察が得られる。 ストレステスト(英語: Stress Testing)とは、特定のしきい値を超えた計算負荷を与えて、それが失敗する能力を特定することによってシステムを評価する手法である。 我々は,ストレステストに基づくプロトコルを用いて,量子H1イオントラップ装置の質的,定量的評価を行う。 具体的には、量子機械学習アルゴリズムであるQuantum Neuron Born Machineを計算集約的な負荷として利用する。 次に, ハードウェアが故障し, 量子スタック内で故障が発生した場合の負荷を決定するために, アルゴリズム内で繰り返し回避サブルーチンの数を線形にスケールする。 提案手法を用いて,計算集約型QMLアルゴリズムを管理するハードウェア能力を評価し,ハードウェア性能をアルゴリズムの機能的複雑さとして評価する。 また,QNBMを用いてストレステストを行った結果から得られた知見をもとに,質的な議論と資源推定を行う。

Quantum hardware is progressing at a rapid pace and, alongside this progression, it is vital to challenge the capabilities of these machines using functionally complex algorithms. Doing so provides direct insights into the current capabilities of modern quantum hardware and where its breaking points lie. Stress testing is a technique used to evaluate a system by giving it a computational load beyond its specified thresholds and identifying the capacity under which it fails. We conduct a qualitative and quantitative evaluation of the Quantinuum H1 ion trap device using a stress test based protocol. Specifically, we utilize the quantum machine learning algorithm, the Quantum Neuron Born Machine, as the computationally intensive load for the device. Then, we linearly scale the number of repeat-until-success subroutines within the algorithm to determine the load under which the hardware fails and where the failure occurred within the quantum stack. Using this proposed method, we assess the hardware capacity to manage a computationally intensive QML algorithm and evaluate the hardware performance as the functional complexity of the algorithm is scaled. Alongside the quantitative performance results, we provide a qualitative discussion and resource estimation based on the insights obtained from conducting the stress test with the QNBM.
翻訳日:2024-01-30 20:01:10 公開日:2024-01-27
# 低リソース言語を用いた機械翻訳における誤訳と性別推定

Misgendering and Assuming Gender in Machine Translation when Working with Low-Resource Languages ( http://arxiv.org/abs/2401.13165v2 )

ライセンス: Link先を確認
Sourojit Ghosh, Srishti Chatterjee(参考訳) 本章では、低リソース言語の文脈における機械翻訳(MT)における性別関連エラーに焦点を当てる。 まず、低リソース言語とは何かを説明し、そのような言語階層を形成する不可分な社会的および計算的要因を調べます。 本稿は,母国語ベンガル語の事例研究を通じて,約3億人が話すグローバル言語であるベンガル語を事例として紹介する。 本稿では,このような誤りが言語的消去や表現的害に繋がるポストコロニアル的・社会的影響について論じるとともに,MT会話においてより多くのエージェンシーを提供することで,言語強化に向けた潜在的な解決策について議論する。

This chapter focuses on gender-related errors in machine translation (MT) in the context of low-resource languages. We begin by explaining what low-resource languages are, examining the inseparable social and computational factors that create such linguistic hierarchies. We demonstrate through a case study of our mother tongue Bengali, a global language spoken by almost 300 million people but still classified as low-resource, how gender is assumed and inferred in translations to and from the high(est)-resource English when no such information is provided in source texts. We discuss the postcolonial and societal impacts of such errors leading to linguistic erasure and representational harms, and conclude by discussing potential solutions towards uplifting languages by providing them more agency in MT conversations.
翻訳日:2024-01-30 19:58:50 公開日:2024-01-27
# DisCOUNT: 最適輸送による分散対実的説明

DISCOUNT: Distributional Counterfactual Explanation With Optimal Transport ( http://arxiv.org/abs/2401.13112v2 )

ライセンス: Link先を確認
Lei You, Lele Cao, Mattias Nilsson(参考訳) Counterfactual Explanations (CE) は、異なる結果をもたらす代替入力インスタンスを特定することによって、ブラックボックス決定モデルにおける洞察と解釈可能性を提供するデファクト手法である。 本稿では、CEの概念を分散コンテキストに拡張し、個々のデータポイントから、DCE(Distributedal Counterfactal Explanation)と呼ばれる、入力および出力分布全体へのスコープを広げる。 DCEでは、実例と反事実の分布特性の分析に焦点が移り、個々の事例と結果の決定を古典的なアプローチで評価するのと類似している。 我々は、確率制約付き最適化問題に最適輸送(OT)を活用し、統計的信頼度に基づく実例と密に一致した反事実分布を導出することを目的としている。 提案手法であるdisCOUNTは,この信頼性を入力分布と出力分布の両方で戦略的にバランスさせる。 このアルゴリズムには収束率の解析が伴う。 提案手法の有効性は, 一連の事例研究を通じて実証され, 意思決定モデルに深い洞察を与える可能性を強調した。

Counterfactual Explanations (CE) is the de facto method for providing insight and interpretability in black-box decision-making models by identifying alternative input instances that lead to different outcomes. This paper extends the concept of CEs to a distributional context, broadening the scope from individual data points to entire input and output distributions, named Distributional Counterfactual Explanation (DCE). In DCE, our focus shifts to analyzing the distributional properties of the factual and counterfactual, drawing parallels to the classical approach of assessing individual instances and their resulting decisions. We leverage Optimal Transport (OT) to frame a chance-constrained optimization problem, aiming to derive a counterfactual distribution that closely aligns with its factual counterpart, substantiated by statistical confidence. Our proposed optimization method, DISCOUNT, strategically balances this confidence across both input and output distributions. This algorithm is accompanied by an analysis of its convergence rate. The efficacy of our proposed method is substantiated through a series of illustrative case studies, highlighting its potential in providing deep insights into decision-making models.
翻訳日:2024-01-30 19:58:11 公開日:2024-01-27
# オンライン世界モデル学習のための局所感性スパース符号化

Locality Sensitive Sparse Encoding for Learning World Models Online ( http://arxiv.org/abs/2401.13034v2 )

ライセンス: Link先を確認
Zichen Liu, Chao Du, Wee Sun Lee, Min Lin(参考訳) モデルベース強化学習(MBRL)のためにオンラインで正確な世界モデルを取得することは、データ非定常性のため困難である。 オンライン学習の観点からは、各ラウンドにおける過去のすべてのエクスペリエンスに最適なフォロー・ザ・リーダー(ftl)ワールドモデルが望ましい。 残念ながらnnベースのモデルは、ftlを達成するためにすべてのインタラクションステップで蓄積されたデータを再トレーニングする必要がある。 本稿では,FTLをインクリメンタルアップデートで実現可能なモデルを再検討する。 特に、我々の世界モデルは非線形ランダム特徴によって支持される線形回帰モデルである。 線形部分は効率的なFTL更新を保証し、非線形ランダム特徴は複雑な環境の整合性を高める。 モデルキャパシティと計算効率を最大限に両立させるため,高次元非線形特性をもちながら効率的なスパース更新を可能にする局所性感度スパース符号化を導入する。 符号化の表現力を検証し、データ共変量シフトの下で効率的なオンライン学習を可能にすることを検証する。 また、Dyna MBRL設定では、我々の世界モデルは、リプレイやその他の連続学習手法で訓練された深層世界のモデルの性能に匹敵するか、一致した1パスの軌跡データを用いてオンラインで学習した。

Acquiring an accurate world model online for model-based reinforcement learning (MBRL) is challenging due to data nonstationarity, which typically causes catastrophic forgetting for neural networks (NNs). From the online learning perspective, a Follow-The-Leader (FTL) world model is desirable, which optimally fits all previous experiences at each round. Unfortunately, NN-based models need re-training on all accumulated data at every interaction step to achieve FTL, which is computationally expensive for lifelong agents. In this paper, we revisit models that can achieve FTL with incremental updates. Specifically, our world model is a linear regression model supported by nonlinear random features. The linear part ensures efficient FTL update while the nonlinear random feature empowers the fitting of complex environments. To best trade off model capacity and computation efficiency, we introduce a locality sensitive sparse encoding, which allows us to conduct efficient sparse updates even with very high dimensional nonlinear features. We validate the representation power of our encoding and verify that it allows efficient online learning under data covariate shift. We also show, in the Dyna MBRL setting, that our world models learned online using a single pass of trajectory data either surpass or match the performance of deep world models trained with replay and other continual learning methods.
翻訳日:2024-01-30 19:57:21 公開日:2024-01-27
# マルチモーダルタスクの連続学習のための動的トランスフォーマーアーキテクチャ

Dynamic Transformer Architecture for Continual Learning of Multimodal Tasks ( http://arxiv.org/abs/2401.15275v1 )

ライセンス: Link先を確認
Yuliang Cai and Mohammad Rostami(参考訳) トランスフォーマーニューラルネットワークは、さまざまなデータモダリティの幅広いアプリケーションにおいて、以前のアーキテクチャを置き換えつつある。 大規模トレーニング済みのトランスフォーマーニューラルネットワークのサイズと計算要求の増大は、エッジコンピューティングを必要とするアプリケーションにこれらのモデルを広く採用する上で大きな課題となっている。 この課題に対処するために、自律学習エージェントに順次到着するタスク間で知識の伝達を容易にすることで、継続学習(CL)がソリューションとして現れる。 しかし、現在のCL手法は主に視覚ベースまたは言語ベースの学習タスクに焦点を当てている。 本稿では,視覚と言語の両方を含む学習タスクに焦点をあてたトランスフォーマティブなclフレームワークを提案する。 他のモダリティにおけるトランスフォーマーの成功により、我々のアーキテクチャはマルチモーダルな学習環境に利用できる可能性がある。 このフレームワークでは,タスク毎にネットワークを専門化するために,ベーストランスフォーマーに余分なパラメータを導入することで恩恵を受ける。 その結果、動的モデル拡張により、複数のタスクをシーケンスで学習することができる。 また、過去の経験から得られる知識の蒸留を利用して、現在の課題をより効率的に学習する。 提案手法であるtam-cl(task attentive multimodal continual learning)は,タスク間の情報交換を可能とし,破滅的な記憶の問題を緩和する。 特に、私たちのアプローチはスケーラブルで、最小限のメモリと時間オーバーヘッドが発生します。 tam-clがマルチモーダルタスクに挑戦して最先端(sota)性能を達成

Transformer neural networks are increasingly replacing prior architectures in a wide range of applications in different data modalities. The increasing size and computational demands of fine-tuning large pre-trained transformer neural networks pose significant challenges for the widespread adoption of these models for applications that demand on-edge computing. To tackle this challenge, continual learning (CL) emerges as a solution by facilitating the transfer of knowledge across tasks that arrive sequentially for an autonomously learning agent. However, current CL methods mainly focus on learning tasks that are exclusively vision-based or language-based. We propose a transformer-based CL framework focusing on learning tasks that involve both vision and language, known as Vision-and-Language (VaL) tasks. Due to the success of transformers in other modalities, our architecture has the potential to be used in multimodal learning settings. In our framework, we benefit from introducing extra parameters to a base transformer to specialize the network for each task. As a result, we enable dynamic model expansion to learn several tasks in a sequence. We also use knowledge distillation to benefit from relevant past experiences to learn the current task more efficiently. Our proposed method, Task Attentive Multimodal Continual Learning (TAM-CL), allows for the exchange of information between tasks while mitigating the problem of catastrophic forgetting. Notably, our approach is scalable, incurring minimal memory and time overhead. TAM-CL achieves state-of-the-art (SOTA) performance on challenging multimodal tasks
翻訳日:2024-01-30 19:15:26 公開日:2024-01-27
# オンライン不均一フェデレーション強化学習の有限時間解析

Finite-Time Analysis of On-Policy Heterogeneous Federated Reinforcement Learning ( http://arxiv.org/abs/2401.15273v1 )

ライセンス: Link先を確認
Chenyu Zhang, Han Wang, Aritra Mitra, James Anderson(参考訳) フェデレーション強化学習(frl)は、異なるエージェントからの情報を活用して強化学習タスクのサンプル複雑さを減らすための有望なパラダイムとして登場した。 しかしながら、各エージェントが潜在的に異なる環境と相互作用する場合、FRLアルゴリズムの非漸近的性能について理論的にはほとんど知られていない。 このような結果の欠如は、マルコフのサンプリング、線形関数近似、通信を節約するための複数の局所更新、エージェントのmdpの報酬関数と遷移核の不均一性、連続状態-アクション空間など、様々な技術的課題と複雑な相互作用によって引き起こされる。 さらに、政治状況においては、行動方針は時間によって異なり、分析をさらに複雑にする。 そこで我々は,これらの課題に対処し,包括的有限時間誤差解析を提供するために,線形関数近似を備えた新しいオンライン強化学習手法であるFedSARSAを導入する。 特筆すべきは、フェザーサが全てのエージェントにとって最適に近い政策に収束し、準最適度が不均質のレベルに比例する程度に収束することである。 さらに,federsaがエージェントコラボレーションを利用して,エージェント数の増加に伴ってリニアなスピードアップを実現することを証明した。

Federated reinforcement learning (FRL) has emerged as a promising paradigm for reducing the sample complexity of reinforcement learning tasks by exploiting information from different agents. However, when each agent interacts with a potentially different environment, little to nothing is known theoretically about the non-asymptotic performance of FRL algorithms. The lack of such results can be attributed to various technical challenges and their intricate interplay: Markovian sampling, linear function approximation, multiple local updates to save communication, heterogeneity in the reward functions and transition kernels of the agents' MDPs, and continuous state-action spaces. Moreover, in the on-policy setting, the behavior policies vary with time, further complicating the analysis. In response, we introduce FedSARSA, a novel federated on-policy reinforcement learning scheme, equipped with linear function approximation, to address these challenges and provide a comprehensive finite-time error analysis. Notably, we establish that FedSARSA converges to a policy that is near-optimal for all agents, with the extent of near-optimality proportional to the level of heterogeneity. Furthermore, we prove that FedSARSA leverages agent collaboration to enable linear speedups as the number of agents increases, which holds for both fixed and adaptive step-size configurations.
翻訳日:2024-01-30 19:15:02 公開日:2024-01-27
# SimFair:シミュレーションモデルによる物理誘導公正学習

SimFair: Physics-Guided Fairness-Aware Learning with Simulation Models ( http://arxiv.org/abs/2401.15270v1 )

ライセンス: Link先を確認
Zhihao Wang, Yiqun Xie, Zhili Li, Xiaowei Jia, Zhe Jiang, Aolin Jia, Shuo Xu(参考訳) フェアネス・アウェアネスは、現実のアプリケーションにおける人工知能の責任を負うための重要なビルディングブロックとして登場した。 多くの場合、パフォーマンスの不平等は、異なる領域における分布の変化によるものである。 公平性の伝達性を改善する技術が開発されているが、この問題の解決策は必ずしも新しい領域からのサンプルがなくても実現可能であるとは限らない。 幸いなことに、物理学に基づく力学モデルは、大きな社会的影響を持つ多くの問題に対して研究されてきた。 物理ルールに基づくシミュレーションと逆モデリングをトレーニング設計に統合することにより,データ制限をブリッジする物理誘導型公正学習フレームワークであるSimFairを提案する。 温度予測を例として,フェアネス保存におけるSimFairの有効性を示す。

Fairness-awareness has emerged as an essential building block for the responsible use of artificial intelligence in real applications. In many cases, inequity in performance is due to the change in distribution over different regions. While techniques have been developed to improve the transferability of fairness, a solution to the problem is not always feasible with no samples from the new regions, which is a bottleneck for pure data-driven attempts. Fortunately, physics-based mechanistic models have been studied for many problems with major social impacts. We propose SimFair, a physics-guided fairness-aware learning framework, which bridges the data limitation by integrating physical-rule-based simulation and inverse modeling into the training design. Using temperature prediction as an example, we demonstrate the effectiveness of the proposed SimFair in fairness preservation.
翻訳日:2024-01-30 19:14:39 公開日:2024-01-27
# 検索型大規模言語モデルによる検索と自己回帰による医学的推論の改善

Improving Medical Reasoning through Retrieval and Self-Reflection with Retrieval-Augmented Large Language Models ( http://arxiv.org/abs/2401.15269v1 )

ライセンス: Link先を確認
Minbyul Jeong, Jiwoong Sohn, Mujeen Sung, Jaewoo Kang(参考訳) gpt-4のような最近のプロプライエタリな大規模言語モデル(llm)は、生物医学領域における様々な課題に取り組むためのマイルストーンを達成した。 LLMの符号化された知識では処理できない課題に対処するために、知識コーパスから文書を検索し、LLMの入力に無条件または選択的に付加することにより、様々な検索拡張生成法(RAG)を開発した。 しかし、既存の手法を異なるドメイン固有の問題に適用すると、一般化の貧弱さが明らかになり、不正な文書の取得や不正確な判断につながる。 本稿では, 説明文の生成, ドメイン固有文書の検索, 生成した応答の自己再生を専門とするバイオメディカルテキストに信頼性のあるフレームワークであるSelf-BioRAGを紹介する。 84kフィルタを用いたバイオメディカルインストラクションセットを用いて自己バイオラグを訓練し,その生成した説明をカスタマイズした反射トークンを用いて評価する。 本研究は,レトリバーやドメイン関連文書コーパス,命令セットなどのドメイン固有のコンポーネントが,ドメイン関連命令の付着に必要であることを示す。 3つの主要な医療質問答えベンチマークデータセットを用いて、Self-BioRAGの実験結果は、7B以下のパラメータサイズを持つ最先端のオープンバウンダレーションモデルに対して平均で7.2%の絶対的な改善を達成し、大きなパフォーマンス向上を示した。 全体として、Self-BioRAGは質問の手がかりを見つけ、必要なら関連文書を検索し、検索した文書から情報に答える方法を理解し、医療専門家としての知識を符号化する。 バイオメディカルおよび臨床領域の能力を高めるために、フレームワークコンポーネントとモデルウェイト(7Bと13B)をトレーニングするためのデータとコードをリリースする。

Recent proprietary large language models (LLMs), such as GPT-4, have achieved a milestone in tackling diverse challenges in the biomedical domain, ranging from multiple-choice questions to long-form generations. To address challenges that still cannot be handled with the encoded knowledge of LLMs, various retrieval-augmented generation (RAG) methods have been developed by searching documents from the knowledge corpus and appending them unconditionally or selectively to the input of LLMs for generation. However, when applying existing methods to different domain-specific problems, poor generalization becomes apparent, leading to fetching incorrect documents or making inaccurate judgments. In this paper, we introduce Self-BioRAG, a framework reliable for biomedical text that specializes in generating explanations, retrieving domain-specific documents, and self-reflecting generated responses. We utilize 84k filtered biomedical instruction sets to train Self-BioRAG that can assess its generated explanations with customized reflective tokens. Our work proves that domain-specific components, such as a retriever, domain-related document corpus, and instruction sets are necessary for adhering to domain-related instructions. Using three major medical question-answering benchmark datasets, experimental results of Self-BioRAG demonstrate significant performance gains by achieving a 7.2% absolute improvement on average over the state-of-the-art open-foundation model with a parameter size of 7B or less. Overall, we analyze that Self-BioRAG finds the clues in the question, retrieves relevant documents if needed, and understands how to answer with information from retrieved documents and encoded knowledge as a medical expert does. We release our data and code for training our framework components and model weights (7B and 13B) to enhance capabilities in biomedical and clinical domains.
翻訳日:2024-01-30 19:14:26 公開日:2024-01-27
# ステークホルダー・アライメント型機械学習の安定的選好に向けて

Towards Stable Preferences for Stakeholder-aligned Machine Learning ( http://arxiv.org/abs/2401.15268v1 )

ライセンス: Link先を確認
Haleema Sheraz, Stefan C. Kremer, Joshua August Skorburg, Graham Taylor, Walter Sinnott-Armstrong, Kyle Boerstler(参考訳) 臓器要求の増加を特徴とする腎臓割当の厳しい課題に対応するため,本研究は,この問題に対するデータ駆動ソリューションの開発に着手し,ステークホルダーの価値観も取り入れた。 本研究の目的は,腎割当に関する個人およびグループレベルの選好を学習する方法を考案することである。 Pairwise Kidney patient Online Survey」のデータに基づく。 2つの異なるデータセットを活用して,3つのレベル – 個人,グループ,安定性 – を評価します。 個人レベルのモデルは個別の選好を予測し、グループレベルのモデルは参加者間で選好を集約し、グループレベルの拡張である安定性レベルモデルは、時間とともにこれらの選好の安定性を評価する。 利害関係者の選好を腎臓割当プロセスに取り入れることで,臓器移植の倫理的次元を向上し,より透明性と公平な実践に寄与するとともに,道徳的価値観のアルゴリズム的意思決定への統合を促進する。

In response to the pressing challenge of kidney allocation, characterized by growing demands for organs, this research sets out to develop a data-driven solution to this problem, which also incorporates stakeholder values. The primary objective of this study is to create a method for learning both individual and group-level preferences pertaining to kidney allocations. Drawing upon data from the 'Pairwise Kidney Patient Online Survey.' Leveraging two distinct datasets and evaluating across three levels - Individual, Group and Stability - we employ machine learning classifiers assessed through several metrics. The Individual level model predicts individual participant preferences, the Group level model aggregates preferences across participants, and the Stability level model, an extension of the Group level, evaluates the stability of these preferences over time. By incorporating stakeholder preferences into the kidney allocation process, we aspire to advance the ethical dimensions of organ transplantation, contributing to more transparent and equitable practices while promoting the integration of moral values into algorithmic decision-making.
翻訳日:2024-01-30 19:13:54 公開日:2024-01-27
# 石積みき裂検出自動化のためのsam型インスタンスセグメンテーションモデル

SAM-based instance segmentation models for the automation of masonry crack detection ( http://arxiv.org/abs/2401.15266v1 )

ライセンス: Link先を確認
Zehao Ye, Lucy Lovell, Asaad Faramarzi and Jelena Ninic(参考訳) 土木構造物の外観に基づく視覚検査の自動化は、現在、労働集約的かつ時間のかかる性質のために重要である。 自動検査の重要な側面は画像取得であり、近年のソフトウェアとハードウェアの両コンピューティングにおける広範な開発を考えると、迅速かつ費用対効果が高い。 以前の研究では、主にコンクリートとアスファルトに焦点が当てられ、石工の亀裂への注意は少なかった。 後者は、公開データセットも欠落している。 本稿では,まず,1,300点の注釈付き画像(640ピクセル×640ピクセル)をMCrack1300と命名し,ブロック,破砕レンガ,ひび割れをカバーしたサンプルセグメンテーション用データセットを提示する。 次に、最新の大規模モデルであるSAM(Segment Anything Model)など、ベンチマークのための主要なアルゴリズムをいくつかテストする。 ローランド適応(LoRA)を用いてエンコーダを微調整し,SAM実行を自動化する2つの新しい手法を提案する。 第1の方法はプロンプトエンコーダを捨て、SAMエンコーダを他のデコーダに接続することであり、第2の方法は学習可能な自己生成プロンプトを導入する。 samエンコーダセクションで提案された2つのメソッドをシームレスに統合するために,特徴抽出器を再設計した。 どちらの手法も最先端の性能を超え、すべてのクラスで3%、特にクラックでは6%のベンチマークを上回りました。 そこで本研究では,単眼カメラとハフライン変換を併用して,画像を自動的に直交投影マップに変換する手法を提案する。 れんが単位の既知実サイズを組み込むことにより, き裂寸法を正確に推定し, レーザ走査による結果と10%未満の精度で評価した。 全体として,自動き裂検出とサイズ推定における重要な研究ギャップに対処する。

Automating visual inspection for capturing defects based on civil structures appearance is crucial due to its currently labour-intensive and time-consuming nature. An important aspect of automated inspection is image acquisition, which is rapid and cost-effective considering the pervasive developments in both software and hardware computing in recent years. Previous studies largely focused on concrete and asphalt, with less attention to masonry cracks. The latter also lacks publicly available datasets. In this paper, we first present a corresponding data set for instance segmentation with 1,300 annotated images (640 pixels x 640 pixels), named as MCrack1300, covering bricks, broken bricks, and cracks. We then test several leading algorithms for benchmarking, including the latest large-scale model, the prompt-based Segment Anything Model (SAM). We fine-tune the encoder using Low-Rank Adaptation (LoRA) and proposed two novel methods for automation of SAM execution. The first method involves abandoning the prompt encoder and connecting the SAM encoder to other decoders, while the second method introduces a learnable self-generating prompter. In order to ensure the seamless integration of the two proposed methods with SAM encoder section, we redesign the feature extractor. Both proposed methods exceed state-of-the-art performance, surpassing the best benchmark by approximately 3% for all classes and around 6% for cracks specifically. Based on successful detection, we propose a method based on a monocular camera and the Hough Line Transform to automatically transform images into orthographic projection maps. By incorporating known real sizes of brick units, we accurately estimate crack dimensions, with the results differing by less than 10% from those obtained by laser scanning. Overall, we address important research gaps in automated masonry crack detection and size estimation.
翻訳日:2024-01-30 19:13:34 公開日:2024-01-27
# 量子系のマクロ可逆性:自由フェルミオン鎖におけるETHと平衡

Macroscopic Irreversibility in Quantum Systems: ETH and Equilibration in a Free Fermion Chain ( http://arxiv.org/abs/2401.15263v1 )

ライセンス: Link先を確認
Hal Tasaki(参考訳) 均一な近傍ホッピングとマクロな粒子数を有する自由フェルミオン鎖を考える。 チェーンの任意のサブセットを修正する。 任意の初期状態について、十分に大きく典型的には、部分集合内の粒子数(測定結果)がその平衡値(一様粒子分布に対応する)とほぼ確実に等しいことを証明している。 これにより、量子力学的ユニタリ時間進化によって支配されるシステムにおける不可逆的な振る舞いの出現が確立される。 概念上、非可逆性はハミルトニアンの初期状態にランダム性を導入することなくここで証明されるが、古典系における可逆性の導出は特定のランダム性に依存する。 証明に不可欠な新しい要素は、大きな偏りの形の強いETH(エネルギー固有状態熱化仮説)の正当性である。

We consider a free fermion chain with a uniform nearest-neighbor hopping and a macroscopic number of particles. Fix any subset of the chain. For any initial state, we prove that, at a sufficiently large and typical time, the (measurement result of the) number of particles in the subset almost certainly equals its equilibrium value (corresponding to the uniform particle distribution). This establishes the emergence of irreversible behavior in a system governed by the quantum mechanical unitary time evolution. It is conceptually important that irreversibility is proved here without introducing any randomness to the initial state of the Hamiltonian, while the derivation of irreversibility in classical systems relies on certain randomness. The essential new ingredient in the proof is the justification of the strong ETH (energy eigenstate thermalization hypothesis) in the large-deviation form.
翻訳日:2024-01-30 19:13:01 公開日:2024-01-27
# $\ell_\infty$-摂動下での対向訓練推定器の漸近挙動

Asymptotic Behavior of Adversarial Training Estimator under $\ell_\infty$-Perturbation ( http://arxiv.org/abs/2401.15262v1 )

ライセンス: Link先を確認
Yiling Xie and Xiaoming Huo(参考訳) 機械学習と統計モデルにおける敵意攻撃をヘッジするために、敵意トレーニングが提案されている。 本稿では,最近注目されている,$\ell_\infty$-perturbationに基づく対人訓練に焦点を当てた。 適応訓練推定器の漸近的挙動を一般化線形モデルを用いて検討した。 この結果は、真パラメータが0$であるとき、対向訓練推定器を$\ell_\infty$-perturbation で制限することで、正の確率質量が$0$となり、関連するスパース性回復能力の理論的保証をもたらすことを暗示している。 あるいは、$\ell_\infty$-perturbationの下での敵意トレーニングのパフォーマンスをさらに向上させる2段階の手順 -adaptive adversarial training を提案している。 特に,提案手法は漸近的不偏性と変数選択一貫性を実現することができる。 実測実験により,$\ell_\infty$-perturbation 下での対向訓練のスパース性回復能力と,従来の対向訓練と適応対向訓練との経験的性能の比較を行った。

Adversarial training has been proposed to hedge against adversarial attacks in machine learning and statistical models. This paper focuses on adversarial training under $\ell_\infty$-perturbation, which has recently attracted much research attention. The asymptotic behavior of the adversarial training estimator is investigated in the generalized linear model. The results imply that the limiting distribution of the adversarial training estimator under $\ell_\infty$-perturbation could put a positive probability mass at $0$ when the true parameter is $0$, providing a theoretical guarantee of the associated sparsity-recovery ability. Alternatively, a two-step procedure is proposed -- adaptive adversarial training, which could further improve the performance of adversarial training under $\ell_\infty$-perturbation. Specifically, the proposed procedure could achieve asymptotic unbiasedness and variable-selection consistency. Numerical experiments are conducted to show the sparsity-recovery ability of adversarial training under $\ell_\infty$-perturbation and to compare the empirical performance between classic adversarial training and adaptive adversarial training.
翻訳日:2024-01-30 19:12:46 公開日:2024-01-27
# 運転シーンの映像セマンティックセマンティックセマンティックセグメンテーション

Vanishing-Point-Guided Video Semantic Segmentation of Driving Scenes ( http://arxiv.org/abs/2401.15261v1 )

ライセンス: Link先を確認
Diandian Guo, Deng-Ping Fan, Tongyu Lu, Christos Sakaridis, Luc Van Gool(参考訳) 暗黙的なクロスフレーム対応の推定と高い計算コストは、駆動シーンにおけるビデオセマンティックセグメンテーション(VSS)において長年大きな課題であった。 以前の作業では、これらの問題に対処するためにキーフレーム、機能伝達、あるいはクロスフレームの注意を利用する。 対照的に、我々はより効果的なセグメンテーションのために消滅点(VP)を最初に活用する。 直観的には、vp(すなわち、車両から離れる)の近くの物体は識別不能である。 さらに、前方カメラ、直線道路、車両の直線前方運動の通常の場合、彼らはVPから時間とともに放射的に遠ざかる傾向にある。 当社の新規で効率的なVSSネットワークであるVPSegは,この2つの静的および動的VPプリエント(Sparse-to-dense feature mining, DenseVP)とVP-guided Motion fusion(MotionVP)を正確に利用する2つのモジュールを組み込んでいる。 MotionVPはVP-guided Motion Estimationを使用し、フレーム間の明示的な対応を確立し、隣接するフレームから最も関連性の高い特徴に対応する。 これらのモジュールはコンテキスト詳細フレームワーク内で動作し、コンテクストの特徴を異なる入力解像度で高解像度のローカル特徴から切り離して計算コストを削減する。 文脈的特徴と局所的特徴は、最終予測のために文脈的動き注意(CMA)を通して統合される。 Cityscapes と ACDC の2つの一般的な運転セグメンテーションベンチマークに関する大規模な実験では、VPSeg が従来の SOTA 手法より優れており、計算オーバーヘッドはわずかである。

The estimation of implicit cross-frame correspondences and the high computational cost have long been major challenges in video semantic segmentation (VSS) for driving scenes. Prior works utilize keyframes, feature propagation, or cross-frame attention to address these issues. By contrast, we are the first to harness vanishing point (VP) priors for more effective segmentation. Intuitively, objects near VPs (i.e., away from the vehicle) are less discernible. Moreover, they tend to move radially away from the VP over time in the usual case of a forward-facing camera, a straight road, and linear forward motion of the vehicle. Our novel, efficient network for VSS, named VPSeg, incorporates two modules that utilize exactly this pair of static and dynamic VP priors: sparse-to-dense feature mining (DenseVP) and VP-guided motion fusion (MotionVP). MotionVP employs VP-guided motion estimation to establish explicit correspondences across frames and help attend to the most relevant features from neighboring frames, while DenseVP enhances weak dynamic features in distant regions around VPs. These modules operate within a context-detail framework, which separates contextual features from high-resolution local features at different input resolutions to reduce computational costs. Contextual and local features are integrated through contextualized motion attention (CMA) for the final prediction. Extensive experiments on two popular driving segmentation benchmarks, Cityscapes and ACDC, demonstrate that VPSeg outperforms previous SOTA methods, with only modest computational overhead.
翻訳日:2024-01-30 19:12:24 公開日:2024-01-27
# 任意予測器を用いた線形回帰パラメータの有限サンプル信頼領域

Finite Sample Confidence Regions for Linear Regression Parameters Using Arbitrary Predictors ( http://arxiv.org/abs/2401.15254v1 )

ライセンス: Link先を確認
Charles Guille-Escuret and Eugene Ndiaye(参考訳) 任意の予測器からの予測を用いて線形モデルのパラメータの信頼領域を構築する新しい手法を提案する。 我々のフレームワークは雑音に対する最小限の仮定を必要としており、厳密な線形性から調整可能なしきい値まで逸脱する関数にまで拡張することができる。 導出された信頼領域は、混合整数線形プログラミングフレームワーク内で制約としてキャストでき、線形目的の最適化を可能にする。 この表現は、特定のパラメータ座標に対する堅牢な最適化と信頼区間の抽出を可能にする。 従来の方法とは異なり、信頼領域は空であり、仮説テストに使用できる。 最後に,本手法の合成データに対する経験的適用性を検証する。

We explore a novel methodology for constructing confidence regions for parameters of linear models, using predictions from any arbitrary predictor. Our framework requires minimal assumptions on the noise and can be extended to functions deviating from strict linearity up to some adjustable threshold, thereby accommodating a comprehensive and pragmatically relevant set of functions. The derived confidence regions can be cast as constraints within a Mixed Integer Linear Programming framework, enabling optimisation of linear objectives. This representation enables robust optimization and the extraction of confidence intervals for specific parameter coordinates. Unlike previous methods, the confidence region can be empty, which can be used for hypothesis testing. Finally, we validate the empirical applicability of our method on synthetic data.
翻訳日:2024-01-30 19:11:53 公開日:2024-01-27
# 適応最小平均二乗グラフニューラルネットワークとオンライングラフ信号推定

Adaptive Least Mean Squares Graph Neural Networks and Online Graph Signal Estimation ( http://arxiv.org/abs/2401.15304v1 )

ライセンス: Link先を確認
Yi Yan, Changran Peng, Ercan Engin Kuruoglu(参考訳) ノイズのある部分的観測から空間と時間に存在する多変量信号のオンライン予測は、多くの応用において基本的な課題である。 本稿では,LMS-GNN (Adaptive Least Mean Squares Graph Neural Networks) と呼ばれる時間変化グラフ信号のオンライン推定のための効率的なニューラルネットワークアーキテクチャを提案する。 LMS-GNNは、ノイズや欠落した値によって信号が破損するという条件の下で、時間変動を捉え、時空間間相互作用をブリッジすることを目的としている。 LMS-GNNは適応グラフフィルタとグラフニューラルネットワーク(GNN)の組み合わせである。 各段階において、LMS-GNNの前方伝播は、GNNに類似した観測と予測の誤差に基づいて出力される適応グラフフィルタに類似する。 フィルタ係数は、GNNのようにバックプロパゲーションによって更新される。 LMS-GNNは、適応グラフフィルタやグラフ畳み込みニューラルネットワークのようなグラフベースの手法と比較して、より正確なオンライン予測を実現している。

The online prediction of multivariate signals, existing simultaneously in space and time, from noisy partial observations is a fundamental task in numerous applications. We propose an efficient Neural Network architecture for the online estimation of time-varying graph signals named the Adaptive Least Mean Squares Graph Neural Networks (LMS-GNN). LMS-GNN aims to capture the time variation and bridge the cross-space-time interactions under the condition that signals are corrupted by noise and missing values. The LMS-GNN is a combination of adaptive graph filters and Graph Neural Networks (GNN). At each time step, the forward propagation of LMS-GNN is similar to adaptive graph filters where the output is based on the error between the observation and the prediction similar to GNN. The filter coefficients are updated via backpropagation as in GNN. Experimenting on real-world temperature data reveals that our LMS-GNN achieves more accurate online predictions compared to graph-based methods like adaptive graph filters and graph convolutional neural networks.
翻訳日:2024-01-30 19:03:47 公開日:2024-01-27
# 反断熱駆動によるフィードバック型量子アルゴリズム

Feedback-based Quantum Algorithm Inspired by Counterdiabatic Driving ( http://arxiv.org/abs/2401.15303v1 )

ライセンス: Link先を確認
Rajesh K. Malla, Hiroki Sukeno, Hongye Yu, Tzu-Chieh Wei, Andreas Weichselbaum, and Robert M. Konik(参考訳) 最近の量子アルゴリズム開発において、フィードバックに基づくアプローチは、量子多体系の基底状態を作成し、組合せ最適化問題を解くことを約束している。 この方法は量子リアプノフ制御を利用して反復的に量子回路を構成する。 本稿では,量子リアプノフ制御を反断熱駆動プロトコルと統合し,量子断熱から重要な概念とする。 提案手法は,反断熱駆動にインスパイアされた追加の制御場を導入する。 我々は,1次元量子イジングスピン鎖の基底状態の生成にアルゴリズムを適用した。 包括的シミュレーションは、従来のフィードバックベースの量子アルゴリズムと比較して、大幅に削減された時間枠内で、人口移動の低エネルギー状態への著しい加速を示す。 この加速は量子回路の深さを減らし、潜在的な量子コンピュータの実装にとって重要な指標となる。 このアルゴリズムをibm cloud computer上で検証し,多体システムと組合せ最適化問題に対する量子計算の高速化の有効性を強調した。

In recent quantum algorithmic developments, a feedback-based approach has shown promise for preparing quantum many-body system ground states and solving combinatorial optimization problems. This method utilizes quantum Lyapunov control to iteratively construct quantum circuits. Here, we propose a substantial enhancement by integrating quantum Lyapunov control with the counterdiabatic driving protocol, a key concept from quantum adiabaticity. Our approach introduces an additional control field inspired by counterdiabatic driving. We apply our algorithm to prepare ground states in one-dimensional quantum Ising spin chains. Comprehensive simulations demonstrate a remarkable acceleration in population transfer to low-energy states within a significantly reduced time frame compared to conventional feedback-based quantum algorithms. This acceleration translates to a reduced quantum circuit depth, a critical metric for potential quantum computer implementation. We validate our algorithm on the IBM cloud computer, highlighting its efficacy in expediting quantum computations for many-body systems and combinatorial optimization problems.
翻訳日:2024-01-30 19:03:29 公開日:2024-01-27
# supplygraph:グラフニューラルネットワークを用いたサプライチェーン計画のためのベンチマークデータセット

SupplyGraph: A Benchmark Dataset for Supply Chain Planning using Graph Neural Networks ( http://arxiv.org/abs/2401.15299v1 )

ライセンス: Link先を確認
Azmine Toushik Wasi and MD Shafikul Islam and Adipto Raihan Akib(参考訳) グラフニューラルネットワーク(GNN)は、輸送、バイオインフォマティクス、言語処理、コンピュータビジョンなど、さまざまな領域で注目を集めている。 しかし、GNNをサプライチェーンネットワークに適用する研究は顕著に行われていない。 サプライチェーンネットワークは本質的にグラフのような構造であり、GNN方法論を適用するための主要な候補となる。 これにより、最も複雑なサプライチェーン問題さえも最適化し、予測し、解決する可能性の世界が開ける。 このアプローチの大きな欠点は、GNNを用いたサプライチェーン問題の研究と解決を容易にするために、実世界のベンチマークデータセットが存在しないことである。 この問題に対処するため,バングラデシュで有数のFMCG企業から得られた,生産目的のサプライチェーン計画に焦点を当てたリアルタイムタスクのためのリアルタイムベンチマークデータセットを提案する。 データセットには、販売予測、生産計画、工場問題の特定を可能にするノード機能としての時間データが含まれている。 このデータセットを利用することで、研究者はGNNを使用して多くのサプライチェーン問題に対処し、サプライチェーン分析と計画の分野を前進させることができる。 出典:https://github.com/CIOL-SUST/SupplyGraph

Graph Neural Networks (GNNs) have gained traction across different domains such as transportation, bio-informatics, language processing, and computer vision. However, there is a noticeable absence of research on applying GNNs to supply chain networks. Supply chain networks are inherently graph-like in structure, making them prime candidates for applying GNN methodologies. This opens up a world of possibilities for optimizing, predicting, and solving even the most complex supply chain problems. A major setback in this approach lies in the absence of real-world benchmark datasets to facilitate the research and resolution of supply chain problems using GNNs. To address the issue, we present a real-world benchmark dataset for temporal tasks, obtained from one of the leading FMCG companies in Bangladesh, focusing on supply chain planning for production purposes. The dataset includes temporal data as node features to enable sales predictions, production planning, and the identification of factory issues. By utilizing this dataset, researchers can employ GNNs to address numerous supply chain problems, thereby advancing the field of supply chain analytics and planning. Source: https://github.com/CIOL-SUST/SupplyGraph
翻訳日:2024-01-30 19:03:15 公開日:2024-01-27
# LLMとIDE静的解析による抽出メソッドリファクタリング

Together We Go Further: LLMs and IDE Static Analysis for Extract Method Refactoring ( http://arxiv.org/abs/2401.15298v1 )

ライセンス: Link先を確認
Dorin Pomian, Abhiram Bellur, Malinda Dilhara, Zarina Kurbatova, Egor Bogomolov, Timofey Bryksin, Danny Dig(参考訳) ひとつのメソッドに複数の責任をカプセル化する非常に長いメソッドは、理解、デバッグ、再利用、保守が難しい。 この問題の解決策は、Extract Methodと呼ばれるマークリファクタリングで、2つのフェーズから構成される。 (i)抽出すべき文を選択すること、及び (ii)このリファクタリングを行うために機械を適用すること。 アプリケーション部分は、現代のすべてのideにとって重要な機能ですが、開発者は抽出するステートメントを選択する必要があります。 ソフトウェア品質のメトリクスを最適化するためにハードコードルールを使用する多くの研究ツールでは、どのステートメントを抽出して利益を得るかを選択することが重要になっている。 着実に改善されているにも関わらず、これらのツールは多くの場合、開発者の好みや受け入れ基準に合致したリファクタリングの生成に失敗する。 本稿では,LLMの力でIDEのリファクタリング機能を強化し,抽出メソッドのリファクタリングを行うEM-Assistを紹介する。 EM-Assistを他の研究者が過去に使用した多種多様な公開コーパスで実証的に評価した。 EM-Assistは、既存のMLモデルで報告された54.2%、既存の静的解析ツールで報告された52.2%に対して、上位5つの提案のうち正しいリファクタリングを示唆している。 オープンソースプロジェクトから2,849の実際の抽出メソッドインスタンスを複製したとき、EM-Assistのリコール率は6.5%に対して42.1%だった。 さらに,20人の産業開発者を対象に倉庫調査を実施し,最近のコミットのリファクタリングを提案する。 回答者の81.3%がEM-Assistの勧告に同意した。 このことは、我々のアプローチの有用性を示し、LLMが新しいリファクタリングの時代へと導く。

Excessively long methods that encapsulate multiple responsibilities within a single method are challenging to comprehend, debug, reuse, and maintain. The solution to this problem, a hallmark refactoring called Extract Method, consists of two phases: (i) choosing the statements to extract and (ii) applying the mechanics to perform this refactoring. While the application part has been a staple feature of all modern IDEs, they leave it up to developers to choose the statements to extract. Choosing which statements are profitable to extract has been the subject of many research tools that employ hard-coded rules to optimize software quality metrics. Despite steady improvements, these tools often fail to generate refactorings that align with developers' preferences and acceptance criteria. In this paper, we introduce EM-Assist, a tool that augments the refactoring capabilities of IDEs with the power of LLMs to perform Extract Method refactoring. We empirically evaluated EM-Assist on a diverse, publicly available corpus that other researchers used in the past. The results show that EM-Assist outperforms previous state-of-the-art tools: at 1% tolerance, EM-Assist suggests the correct refactoring among its top-5 suggestions 60.6% of the time, compared to 54.2% reported by existing ML models, and 52.2% reported by existing static analysis tools. When we replicated 2,849 actual Extract Method instances from open-source projects, EM-Assist's recall rate was 42.1% compared to 6.5% for its peers. Furthermore, we conducted warehouse surveys with 20 industrial developers and suggested refactorings on their recent commits. 81.3% of the respondents agreed with the recommendations provided by EM-Assist. This shows the usefulness of our approach and ushers us into a new era of refactoring when LLMs.
翻訳日:2024-01-30 19:02:56 公開日:2024-01-27
# 3次元骨格に基づく人物再同定に関する調査 : アプローチ,設計,課題,今後の方向性

A Survey on 3D Skeleton Based Person Re-Identification: Approaches, Designs, Challenges, and Future Directions ( http://arxiv.org/abs/2401.15296v1 )

ライセンス: Link先を確認
Haocong Rao, Chunyan Miao(参考訳) 3Dスケルトンによる人物の再識別は、パターン認識コミュニティに大きな関心を惹きつける重要な研究分野である。 多くの応用シナリオに特有な利点があるため、3dスケルトンベースの人物再同定(srid)法が近年提案されており、スケルトンモデリングと特徴学習の顕著な問題に効果的に取り組んでいる。 最近の進歩にもかかわらず、我々の知る限りでは、これらの研究と課題を包括的に要約する努力はほとんど行われていない。 本稿では,現在のSRIDアプローチ,モデル設計,課題,今後の方向性を体系的に調査することで,このギャップを埋めようとしている。 具体的には、まずSRID問題を定式化し、ベンチマークデータセット、一般的なモデルアーキテクチャ、異なる手法の特性の分析的なレビューをまとめたSRID研究の分類法を提案する。 次に、モデル改善のための重要な洞察を提供するために、複数の側面からSRIDモデルの設計原則を詳述する。 最後に,現在の研究に直面する重要な課題を特定し,今後のSRID研究の方向性について論じる。

Person re-identification via 3D skeletons is an important emerging research area that triggers great interest in the pattern recognition community. With distinctive advantages for many application scenarios, a great diversity of 3D skeleton based person re-identification (SRID) methods have been proposed in recent years, effectively addressing prominent problems in skeleton modeling and feature learning. Despite recent advances, to the best of our knowledge, little effort has been made to comprehensively summarize these studies and their challenges. In this paper, we attempt to fill this gap by providing a systematic survey on current SRID approaches, model designs, challenges, and future directions. Specifically, we first formulate the SRID problem, and propose a taxonomy of SRID research with a summary of benchmark datasets, commonly-used model architectures, and an analytical review of different methods' characteristics. Then, we elaborate on the design principles of SRID models from multiple aspects to offer key insights for model improvement. Finally, we identify critical challenges confronting current studies and discuss several promising directions for future research of SRID.
翻訳日:2024-01-30 19:02:26 公開日:2024-01-27
# マルチトリガーのバックドア攻撃:トリガーを増やし、脅威を増す

Multi-Trigger Backdoor Attacks: More Triggers, More Threats ( http://arxiv.org/abs/2401.15295v1 )

ライセンス: Link先を確認
Yige Li, Xingjun Ma, Jiabo He, Hanxun Huang, Yu-Gang Jiang(参考訳) バックドア攻撃は、ディープニューラルネットワーク(DNN)の(事前)トレーニングとデプロイに対する主要な脅威として浮上している。 バックドア攻撃は様々な分野で研究されているが、その多くは単一のトリガーを使ってデータセットを害する単一トリガー攻撃に焦点を当てている。 現実世界のバックドア攻撃は、例えば、同じデータセットに対する複数の敵の存在が高価値である場合など、はるかに複雑である。 本研究では,複数の敵が同じデータセットを毒殺するために異なる種類のトリガを利用する \textbf{multi-trigger attack} の設定の下で,バックドア攻撃の実用的脅威について検討する。 並列攻撃、シーケンシャル攻撃、ハイブリッド攻撃を含む3種類のマルチトリガー攻撃を提案し、調査することにより、同一データセット上の異なるトリガー間の共存、オーバーライト、相互アクティベート効果に関する重要な理解を提供する。 また, 単一トリガー攻撃は, マルチトリガー攻撃に対する防御に苦慮しているため, 現在の防衛技術の安全性を過度に楽観視する傾向がみられた。 最後に、バックドア攻撃と防御の今後の評価を支援するために、マルチトリガーバックドア中毒データセットを作成します。 私たちの研究は純粋に経験的なものですが、より現実的な設定に向けてバックドア調査を行うのに役立つことを願っています。

Backdoor attacks have emerged as a primary threat to (pre-)training and deployment of deep neural networks (DNNs). While backdoor attacks have been extensively studied in a body of works, most of them were focused on single-trigger attacks that poison a dataset using a single type of trigger. Arguably, real-world backdoor attacks can be much more complex, e.g., the existence of multiple adversaries for the same dataset if it is of high value. In this work, we investigate the practical threat of backdoor attacks under the setting of \textbf{multi-trigger attacks} where multiple adversaries leverage different types of triggers to poison the same dataset. By proposing and investigating three types of multi-trigger attacks, including parallel, sequential, and hybrid attacks, we provide a set of important understandings of the coexisting, overwriting, and cross-activating effects between different triggers on the same dataset. Moreover, we show that single-trigger attacks tend to cause overly optimistic views of the security of current defense techniques, as all examined defense methods struggle to defend against multi-trigger attacks. Finally, we create a multi-trigger backdoor poisoning dataset to help future evaluation of backdoor attacks and defenses. Although our work is purely empirical, we hope it can help steer backdoor research toward more realistic settings.
翻訳日:2024-01-30 19:02:08 公開日:2024-01-27
# 球面上の散乱データフィッティングのための積分演算子アプローチ

Integral Operator Approaches for Scattered Data Fitting on Spheres ( http://arxiv.org/abs/2401.15294v1 )

ライセンス: Link先を確認
Shao-Bo Lin(参考訳) 本稿では,球面上の分散データ適合問題に焦点をあてる。 本稿では,Tikhonov正規化,Landaweber反復,スペクトルカットオフ,反復化Tikhonovを含む,重み付きスペクトルフィルタアルゴリズムの近似性能について検討する。 そこで本研究では,分散データフィッティングのコミュニティにおいて,広く使用されているサンプリング不等式アプローチとノルムセット手法の拡張として,積分演算子アプローチを開発する。 演算子差と二次規則の等価性を提供し、重み付きスペクトルフィルタアルゴリズムの最適ソボレフ型誤差推定を導出することに成功した。 我々の導出誤差推定は、文献におけるチホノフ正則化の飽和現象、既存の誤差解析のためのネイティブ・スペース・バリエ、および異なる埋め込み空間に適応する。 また,重み付きスペクトルフィルタアルゴリズムを装備することで計算負荷を低減し,最適近似誤差境界を提案する。

This paper focuses on scattered data fitting problems on spheres. We study the approximation performance of a class of weighted spectral filter algorithms, including Tikhonov regularization, Landaweber iteration, spectral cut-off, and iterated Tikhonov, in fitting noisy data with possibly unbounded random noise. For the analysis, we develop an integral operator approach that can be regarded as an extension of the widely used sampling inequality approach and norming set method in the community of scattered data fitting. After providing an equivalence between the operator differences and quadrature rules, we succeed in deriving optimal Sobolev-type error estimates of weighted spectral filter algorithms. Our derived error estimates do not suffer from the saturation phenomenon for Tikhonov regularization in the literature, native-space-barrier for existing error analysis and adapts to different embedding spaces. We also propose a divide-and-conquer scheme to equip weighted spectral filter algorithms to reduce their computational burden and present the optimal approximation error bounds.
翻訳日:2024-01-30 19:01:46 公開日:2024-01-27
# SkipViT:Token-Level Skip Connectionによる視覚変換器の高速化

SkipViT: Speeding Up Vision Transformers with a Token-Level Skip Connection ( http://arxiv.org/abs/2401.15293v1 )

ライセンス: Link先を確認
Foozhan Ataiefard, Walid Ahmed, Habib Hajimolahoseini, Saina Asani, Farnoosh Javadi, Mohammad Hassanpour, Omar Mohamed Awad, Austin Wen, Kangling Liu, Yang Liu(参考訳) ビジョントランスフォーマーはcnnモデルよりも計算量とデータ集約性が高いことが知られている。 ViTのようなトランスモデルは、それらの間の関係を学習するために全ての入力画像トークンを必要とする。 しかし、これらのトークンの多くは情報に乏しく、無関係な背景や重要でない景色などの無関係な情報を含んでいる。 これらのトークンはMHSA(Multi-head self-attention)によって見落とされ、MHSAとFFN(Feed-forward Network)では冗長で不要な計算が数多く行われる。 本研究では,非重要トークン間の不要な相互作用量を,異なる低コスト計算経路で分離・送信することにより最適化する手法を提案する。 提案手法は,ViTモデルにパラメータを追加せず,トレーニングのスループットと最終モデルのTop-1精度の0%の損失との最良のトレードオフを見つけることを目的としている。 SkipViTは13%以上のトレーニングスループットを獲得し,Huawei Ascend910Aのベースラインモデルのレベルで分類精度を維持しながら,トークンの55%を効果的に削減できることを示す。

Vision transformers are known to be more computationally and data-intensive than CNN models. These transformer models such as ViT, require all the input image tokens to learn the relationship among them. However, many of these tokens are not informative and may contain irrelevant information such as unrelated background or unimportant scenery. These tokens are overlooked by the multi-head self-attention (MHSA), resulting in many redundant and unnecessary computations in MHSA and the feed-forward network (FFN). In this work, we propose a method to optimize the amount of unnecessary interactions between unimportant tokens by separating and sending them through a different low-cost computational path. Our method does not add any parameters to the ViT model and aims to find the best trade-off between training throughput and achieving a 0% loss in the Top-1 accuracy of the final model. Our experimental results on training ViT-small from scratch show that SkipViT is capable of effectively dropping 55% of the tokens while gaining more than 13% training throughput and maintaining classification accuracy at the level of the baseline model on Huawei Ascend910A.
翻訳日:2024-01-30 19:01:26 公開日:2024-01-27
# 任意線形変換による適応ブロックスパース正規化

Adaptive Block sparse regularization under arbitrary linear transform ( http://arxiv.org/abs/2401.15292v1 )

ライセンス: Link先を確認
Takanobu Furuhashi, Hidekata Hontani, Tatsuya Yokota(参考訳) 未知ブロック構造を持つ任意の線形変換下でのブロックスパーシティの凸信号再構成法を提案する。 提案手法は,既存のLOP-$\ell_2$/$\ell_1$の一般化であり,LOP-$\ell_2$/$\ell_1$とは異なり,非可逆変換の下でブロック間隔で信号を再構成することができる。 我々の研究はブロックスパース正規化の範囲を広げ、様々な信号処理領域にまたがるより汎用的で強力なアプリケーションを可能にする。 提案手法を解くための反復アルゴリズムを導出し,その最適解への収束条件を提供する。 提案手法の有効性を示す数値実験を行った。

We propose a convex signal reconstruction method for block sparsity under arbitrary linear transform with unknown block structure. The proposed method is a generalization of the existing method LOP-$\ell_2$/$\ell_1$ and can reconstruct signals with block sparsity under non-invertible transforms, unlike LOP-$\ell_2$/$\ell_1$. Our work broadens the scope of block sparse regularization, enabling more versatile and powerful applications across various signal processing domains. We derive an iterative algorithm for solving proposed method and provide conditions for its convergence to the optimal solution. Numerical experiments demonstrate the effectiveness of the proposed method.
翻訳日:2024-01-30 19:01:04 公開日:2024-01-27
# MIMIC-IVによる臨床時系列データセットのベンチマーク

Benchmarking with MIMIC-IV, an irregular, spare clinical time series dataset ( http://arxiv.org/abs/2401.15290v1 )

ライセンス: Link先を確認
Hung Bui, Harikrishna Warrier, Yogesh Gupta(参考訳) 電子健康記録(EHR)はますます人気があり、ドメイン内のさまざまな問題を解決するために機械学習ソリューションを適用している。 この成長する研究領域は、EHRのアクセシビリティの必要性も高めている。 集中治療のための医療情報マート(MIMIC)データセットは、多くの研究で使われている生のフォーマットで人気があり、公開され、無料のEHRデータセットである。 しかし、その人気にもかかわらず、特に、時系列表データを用いた深層学習分野における最近の美術作品において、ベンチマーク作業が欠如している。 この作業の目的は、MIMICデータセットの最新バージョンMIC-IVのベンチマークを提供することによって、この不足を埋めることである。 また,MIIMIC-IIIですでに行われている研究について,詳細な文献調査を行った。

Electronic health record (EHR) is more and more popular, and it comes with applying machine learning solutions to resolve various problems in the domain. This growing research area also raises the need for EHRs accessibility. Medical Information Mart for Intensive Care (MIMIC) dataset is a popular, public, and free EHR dataset in a raw format that has been used in numerous studies. However, despite of its popularity, it is lacking benchmarking work, especially with recent state of the art works in the field of deep learning with time-series tabular data. The aim of this work is to fill this lack by providing a benchmark for latest version of MIMIC dataset, MIMIC-IV. We also give a detailed literature survey about studies that has been already done for MIIMIC-III.
翻訳日:2024-01-30 19:00:52 公開日:2024-01-27
# stac: 時空間データアソシエーションを活用した効率的なクロスカメラストリーミングと分析

STAC: Leveraging Spatio-Temporal Data Associations For Efficient Cross-Camera Streaming and Analytics ( http://arxiv.org/abs/2401.15288v1 )

ライセンス: Link先を確認
Volodymyr Vakhniuk, Ayush Sarkar, Ragini Gupta(参考訳) 本稿では,複数のカメラ間の時空間的関係を利用して,制約されたネットワーク環境下でのリアルタイム分析と推論を実現する,効率的なクロスカメラ監視システムSTACを提案する。 STACは、ビデオフレームの時空間特性を用いて、カメラ間での人々の正確な検出、追跡、再識別を可能にする、オールニスケールの特徴学習者再識別(reid)アルゴリズムを用いて構築されている。 stacをフレームフィルタリングと最先端圧縮を統合してストリーミング技術(ffmpeg libx264コーデック)を行い、クロスカメラフレームから冗長な情報を除去する。 これは、リアルタイムクエリ推論の精度を維持しながら、ビデオ伝送のコストと計算/処理の最適化に役立つ。 NVIDIAによるAICity Challenge 2023 Data [1]の導入により、マルチカメラの人物追跡アルゴリズムを利用したシステムの探索が可能になった。 我々は,このデータセットを用いてSTACの性能を評価し,レードの精度測定値と推論率を測定した。 また,フレームフィルタリングによる映像ストリームの削減とffmpegによる圧縮を生のカメラストリームと比較して定量化する。 完全性のため、その結果を再現するリポジトリをhttps://github.com/VolodymyrVakhniuk/CS444_Final_Projectで公開しています。

We propose an efficient cross-cameras surveillance system called,STAC, that leverages spatio-temporal associations between multiple cameras to provide real-time analytics and inference under constrained network environments. STAC is built using the proposed omni-scale feature learning people reidentification (reid) algorithm that allows accurate detection, tracking and re-identification of people across cameras using the spatio-temporal characteristics of video frames. We integrate STAC with frame filtering and state-of-the-art compression for streaming technique (that is, ffmpeg libx264 codec) to remove redundant information from cross-camera frames. This helps in optimizing the cost of video transmission as well as compute/processing, while maintaining high accuracy for real-time query inference. The introduction of AICity Challenge 2023 Data [1] by NVIDIA has allowed exploration of systems utilizing multi-camera people tracking algorithms. We evaluate the performance of STAC using this dataset to measure the accuracy metrics and inference rate for reid. Additionally, we quantify the reduction in video streams achieved through frame filtering and compression using FFmpeg compared to the raw camera streams. For completeness, we make available our repository to reproduce the results, available at https://github.com/VolodymyrVakhniuk/CS444_Final_Project.
翻訳日:2024-01-30 19:00:40 公開日:2024-01-27
# 離散領域における Tao General difference の応用

Applications of Tao General Difference in Discrete Domain ( http://arxiv.org/abs/2401.15287v1 )

ライセンス: Link先を確認
Linmi Tao, Ruiyang Liu, Donglai Tao, Wu Xia, Feilong Ma, Yu Cheng, Jingmao Cui(参考訳) 数値差分計算は、現代のデジタル時代に欠かせないコアの1つである。 Tao General difference (TGD) は、多次元空間における離散列と配列の差分計算のための新しい理論とアプローチである。 TGD演算子は、有限間隔での一般差の固い理論的基礎に基づいて、実世界の応用において例外的な信号処理能力を示す。 第1及び第2のTGD上に、シーケンスの新規な滑らかさ特性が定義される。 この性質は、ノイズがシーケンス内の非滑らかな点である一次元信号の雑音化に用いられる。 一方、有限区間の勾配の中心は、tgd計算によって正確に位置を定めることができる。 これは、ノイズの強い画像エッジの正確な位置化であるコンピュータビジョンにおける従来の課題を解決する。 さらに、tgd演算子のパワーは3次元アレイにおける時空間エッジ検出にまで拡張され、ビデオデータ中の運動エッジの同定を可能にする。 これらの多様な応用は、離散領域におけるtgdの特性と信号処理、画像解析、ビデオ解析におけるtgdの有望性を強調している。

Numerical difference computation is one of the cores and indispensable in the modern digital era. Tao general difference (TGD) is a novel theory and approach to difference computation for discrete sequences and arrays in multidimensional space. Built on the solid theoretical foundation of the general difference in a finite interval, the TGD operators demonstrate exceptional signal processing capabilities in real-world applications. A novel smoothness property of a sequence is defined on the first- and second TGD. This property is used to denoise one-dimensional signals, where the noise is the non-smooth points in the sequence. Meanwhile, the center of the gradient in a finite interval can be accurately location via TGD calculation. This solves a traditional challenge in computer vision, which is the precise localization of image edges with noise robustness. Furthermore, the power of TGD operators extends to spatio-temporal edge detection in three-dimensional arrays, enabling the identification of kinetic edges in video data. These diverse applications highlight the properties of TGD in discrete domain and the significant promise of TGD for the computation across signal processing, image analysis, and video analytic.
翻訳日:2024-01-30 19:00:18 公開日:2024-01-27
# ネットワークトラフィック分析と機械学習技術によるランサムウェア脅威軽減

Ransomware threat mitigation through network traffic analysis and machine learning techniques ( http://arxiv.org/abs/2401.15285v1 )

ライセンス: Link先を確認
Ali Mehrban, Shirin Karimi Geransayeh(参考訳) 近年,ランサムウェアを用いたサイバー攻撃が顕著に増加している。 攻撃者はこの悪意あるソフトウェアを使ってネットワークに侵入し、コンピュータシステムを傷つける。 これにより、政府、民間企業、一般ユーザーを含む様々な組織に多大な損害を与えている。 これらの攻撃は、しばしば機密情報の喪失や露出、通常の操作の中断、永続的な脆弱性につながる。 本稿では,コンピュータネットワークにおけるランサムウェアの認識と識別方法に焦点を当てる。 このアプローチは、機械学習アルゴリズムの使用と、ネットワークトラフィックのパターンの分析に依存する。 このトラフィックを収集し、研究し、機械学習モデルを適用することで、ランサムウェアを正確に識別し、検出することができる。 本手法により,機械学習アルゴリズムは,ネットワークトラフィックに基づくランサムウェアを効果的に特定し,高い精度と精度を実現する。

In recent years, there has been a noticeable increase in cyberattacks using ransomware. Attackers use this malicious software to break into networks and harm computer systems. This has caused significant and lasting damage to various organizations, including government, private companies, and regular users. These attacks often lead to the loss or exposure of sensitive information, disruptions in normal operations, and persistent vulnerabilities. This paper focuses on a method for recognizing and identifying ransomware in computer networks. The approach relies on using machine learning algorithms and analyzing the patterns of network traffic. By collecting and studying this traffic, and then applying machine learning models, we can accurately identify and detect ransomware. The results of implementing this method show that machine learning algorithms can effectively pinpoint ransomware based on network traffic, achieving high levels of precision and accuracy.
翻訳日:2024-01-30 18:59:59 公開日:2024-01-27
# 科学研究における生成AIの倫理的ガイドラインの構築

Building ethical guidelines for generative AI in scientific research ( http://arxiv.org/abs/2401.15284v1 )

ライセンス: Link先を確認
Zhicheng Lin(参考訳) 大きな言語モデルのような生成的人工知能ツールは、学術研究や現実世界の応用を急速に変えつつある。 しかし、科学における生成AIの倫理的ガイドラインに関する議論は断片的であり、コンセンサスに基づく標準の緊急の必要性が強調されている。 本論文は,真偽と偏見に関するモデル制約の理解,プライバシ,機密性,著作権の尊重,モデル出力を取り入れた際の盗作行為やポリシー違反の回避,アプリケーション全体のメリットの確保,透過的かつ再現的なAIの使用,5つの主要なテーマにわたる分析と緩和戦略の展開を通じて,最初のフレームワークを提供する。 一般的なシナリオは、潜在的な倫理的違反を示すために概説されている。 グローバルコンセンサスとプロのトレーニングと合理的な実施が、研究の整合性を守りながらaiのメリットを促進する上で重要である、と論じている。

Generative artificial intelligence tools like large language models are rapidly transforming academic research and real world applications. However, discussions on ethical guidelines for generative AI in science remain fragmented, underscoring the urgent need for consensus based standards. This paper offers an initial framework by developing analyses and mitigation strategies across five key themes: understanding model limitations regarding truthfulness and bias; respecting privacy, confidentiality, and copyright; avoiding plagiarism and policy violations when incorporating model output; ensuring applications provide overall benefit; and using AI transparently and reproducibly. Common scenarios are outlined to demonstrate potential ethical violations. We argue that global consensus coupled with professional training and reasonable enforcement are critical to promoting the benefits of AI while safeguarding research integrity.
翻訳日:2024-01-30 18:59:47 公開日:2024-01-27
# GEM:Segment Anything Modelとデータ合成によるガラス表面セグメンテーションのための簡易ネットワーク

GEM: Boost Simple Network for Glass Surface Segmentation via Segment Anything Model and Data Synthesis ( http://arxiv.org/abs/2401.15282v1 )

ライセンス: Link先を確認
Jing Hao, Moyun Liu, Kuo Feng Hung(参考訳) ガラス領域の検出は透明性と反射特性の曖昧さのために難しい課題である。 これらの透明メガネは、任意の背景シーンと反射されたオブジェクトの両方の視覚的な外観を共有しており、固定されたパターンを持たない。 ガラス表面を高精度にセグメンテーションするために,2つの視覚基盤モデル (segment anything (sam) とstable diffusion) をフル活用した。具体的には,samバックボーン,単純な機能ピラミッド,識別クエリ選択モジュール,マスクデコーダのみからなる,gemと呼ばれる単純なガラス表面セグメンタを考案する。 識別クエリ選択は、ガラス表面の特徴を適応的に識別し、マスクデコーダの初期化クエリとして割り当てる。 また,S-GSDと呼ばれる4種類の拡散モデルを用いて,S-GSDと呼ばれる合成だが光現実的な大規模ガラス表面検出データセットを提案する。 このデータセットは、転送学習の可能なソースです。 合成データのスケールは、転送学習にプラスの影響を与えるが、データ量が増えるにつれて、改善は徐々に飽和していく。 大規模な実験により、GEMはGSD-S検証セット(IoU + 2.1%)上で新しい最先端技術を達成することが示された。 コードとデータセットは、https://github.com/isbrycee/GEM-Glass-Segmentor.comで入手できる。

Detecting glass regions is a challenging task due to the ambiguity of their transparency and reflection properties. These transparent glasses share the visual appearance of both transmitted arbitrary background scenes and reflected objects, thus having no fixed patterns.Recent visual foundation models, which are trained on vast amounts of data, have manifested stunning performance in terms of image perception and image generation. To segment glass surfaces with higher accuracy, we make full use of two visual foundation models: Segment Anything (SAM) and Stable Diffusion.Specifically, we devise a simple glass surface segmentor named GEM, which only consists of a SAM backbone, a simple feature pyramid, a discerning query selection module, and a mask decoder. The discerning query selection can adaptively identify glass surface features, assigning them as initialized queries in the mask decoder. We also propose a Synthetic but photorealistic large-scale Glass Surface Detection dataset dubbed S-GSD via diffusion model with four different scales, which contain 1x, 5x, 10x, and 20x of the original real data size. This dataset is a feasible source for transfer learning. The scale of synthetic data has positive impacts on transfer learning, while the improvement will gradually saturate as the amount of data increases. Extensive experiments demonstrate that GEM achieves a new state-of-the-art on the GSD-S validation set (IoU +2.1%). Codes and datasets are available at: https://github.com/isbrycee/GEM-Glass-Segmentor.
翻訳日:2024-01-30 18:59:29 公開日:2024-01-27
# 文書レベルのニューラルマシン翻訳のための重要度対応データ拡張

Importance-Aware Data Augmentation for Document-Level Neural Machine Translation ( http://arxiv.org/abs/2401.15360v1 )

ライセンス: Link先を確認
Minghao Wu, Yufei Wang, George Foster, Lizhen Qu, Gholamreza Haffari(参考訳) document-level neural machine translation(docnmt)は、文レベルの翻訳とは対照的に、一貫性と結合性を備えた翻訳を生成することを目的としている。 しかし、長い入力長とトレーニングデータの可用性の制限のため、DocNMTはデータスパシティーの課題に直面していることが多い。 そこで本研究では,隠れ状態の規範と学習勾配から推定されるトークン重要度情報に基づくトレーニングデータを拡張した,docnmt用重要度認識データ拡張(iada)アルゴリズムを提案する。 広く使われている3つのDocNMTベンチマークについて包括的な実験を行った。 実験の結果,提案したIADAは,文章レベルと文書レベルの両方で統計学的に有意なDocNMTベースラインといくつかのデータ拡張アプローチに優れていた。

Document-level neural machine translation (DocNMT) aims to generate translations that are both coherent and cohesive, in contrast to its sentence-level counterpart. However, due to its longer input length and limited availability of training data, DocNMT often faces the challenge of data sparsity. To overcome this issue, we propose a novel Importance-Aware Data Augmentation (IADA) algorithm for DocNMT that augments the training data based on token importance information estimated by the norm of hidden states and training gradients. We conduct comprehensive experiments on three widely-used DocNMT benchmarks. Our empirical results show that our proposed IADA outperforms strong DocNMT baselines as well as several data augmentation approaches, with statistical significance on both sentence-level and document-level BLEU.
翻訳日:2024-01-30 18:54:15 公開日:2024-01-27
# 長期出生前電子胎児心拍モニタリングデータに基づく胎児の健康モニタリングのための情報融合とモデル解釈による深層学習

Deep Learning with Information Fusion and Model Interpretation for Health Monitoring of Fetus based on Long-term Prenatal Electronic Fetal Heart Rate Monitoring Data ( http://arxiv.org/abs/2401.15337v1 )

ライセンス: Link先を確認
Zenghui Lin, Xintong Liu, Nan Wang, Ruichen Li, Qingao Liu, Jingying Ma, Liwei Wang, Yan Wang, Shenda Hong(参考訳) 遠隔期における胎児心拍数(FHR)の長期モニタリングは,電子的FHRモニタリングによってますます普及している。 このような継続的なモニタリングは、短期的なモニタリングとは対照的に、胎児の心臓データを長期間収集する。 これは胎児の状態をより包括的に理解する。 しかし、長期間の胎児心臓モニタリングの解釈はまだ初期段階にあり、対応する臨床基準が欠如している。 さらに, 連続モニタリングによって生成されたデータ量は, 手動で解析した場合, 臨床作業に多大な負担を負う。 そこで本研究では,fhr連続モニタリングのためのlara (long-term antepartum risk analysis system) と呼ばれる自動解析システムを開発した。 LARAのコアは、確立された畳み込みニューラルネットワーク(CNN)モデルである。 長期FHRデータを入力として処理し、分析結果としてリスク分散マップ(RDM)とリスク指標(RI)を生成する。 AUC 0.872,精度0.816,特異度0.811,感度0.806,精度0.271,F1スコア0.415。 本研究では, RI値の高い長期FHRモニタリングデータが, 有害な結果をもたらす可能性が示唆された(p=0.0021)。 結論として, 長期FHRモニタリングのための最初の自動分析システムであるLARAを導入し, 将来的な臨床的価値を探究する。

Long-term fetal heart rate (FHR) monitoring during the antepartum period, increasingly popularized by electronic FHR monitoring, represents a growing approach in FHR monitoring. This kind of continuous monitoring, in contrast to the short-term one, collects an extended period of fetal heart data. This offers a more comprehensive understanding of fetus's conditions. However, the interpretation of long-term antenatal fetal heart monitoring is still in its early stages, lacking corresponding clinical standards. Furthermore, the substantial amount of data generated by continuous monitoring imposes a significant burden on clinical work when analyzed manually. To address above challenges, this study develops an automatic analysis system named LARA (Long-term Antepartum Risk Analysis system) for continuous FHR monitoring, combining deep learning and information fusion methods. LARA's core is a well-established convolutional neural network (CNN) model. It processes long-term FHR data as input and generates a Risk Distribution Map (RDM) and Risk Index (RI) as the analysis results. We evaluate LARA on inner test dataset, the performance metrics are as follows: AUC 0.872, accuracy 0.816, specificity 0.811, sensitivity 0.806, precision 0.271, and F1 score 0.415. In our study, we observe that long-term FHR monitoring data with higher RI is more likely to result in adverse outcomes (p=0.0021). In conclusion, this study introduces LARA, the first automated analysis system for long-term FHR monitoring, initiating the further explorations into its clinical value in the future.
翻訳日:2024-01-30 18:54:00 公開日:2024-01-27
# L-AutoDA: 自動決定に基づく敵攻撃のための大規模言語モデルを活用する

L-AutoDA: Leveraging Large Language Models for Automated Decision-based Adversarial Attacks ( http://arxiv.org/abs/2401.15335v1 )

ライセンス: Link先を確認
Ping Guo, Fei Liu, Xi Lin, Qingchuan Zhao, Qingfu Zhang(参考訳) 機械学習の急速に発展する分野では、敵攻撃は堅牢性とセキュリティをモデル化する上で大きな課題となる。 決定に基づく攻撃は、詳細な確率やスコアではなく、モデルの決定に対するフィードバックのみを必要とするが、特に攻撃的で防御が難しい。 本研究では,L-AutoDA(Large Language Model-based Automated Decision-based Adversarial Attacks)を導入し,L-AutoDA(Large Language Model-based Automated Decision-based Adversarial Attacks)を提案する。 L-AutoDAは、進化的なフレームワークでLLMと反復的に相互作用することで、人間の努力を伴わずに競合攻撃アルゴリズムを効率的に設計する。 CIFAR-10データセットに対するL-AutoDAの有効性を実証し、成功率と計算効率の両面でベースライン法よりも大幅に改善したことを示す。 我々の発見は、敵対的攻撃生成のためのツールとしての言語モデルの可能性を強調し、堅牢なAIシステムを開発するための新たな道のりを強調した。

In the rapidly evolving field of machine learning, adversarial attacks present a significant challenge to model robustness and security. Decision-based attacks, which only require feedback on the decision of a model rather than detailed probabilities or scores, are particularly insidious and difficult to defend against. This work introduces L-AutoDA (Large Language Model-based Automated Decision-based Adversarial Attacks), a novel approach leveraging the generative capabilities of Large Language Models (LLMs) to automate the design of these attacks. By iteratively interacting with LLMs in an evolutionary framework, L-AutoDA automatically designs competitive attack algorithms efficiently without much human effort. We demonstrate the efficacy of L-AutoDA on CIFAR-10 dataset, showing significant improvements over baseline methods in both success rate and computational efficiency. Our findings underscore the potential of language models as tools for adversarial attack generation and highlight new avenues for the development of robust AI systems.
翻訳日:2024-01-30 18:53:32 公開日:2024-01-27
# 最適スパース生存木

Optimal Sparse Survival Trees ( http://arxiv.org/abs/2401.15330v1 )

ライセンス: Link先を確認
Rui Zhang, Rui Xin, Margo Seltzer, Cynthia Rudin(参考訳) 解釈性は、医師、病院、製薬会社、バイオテクノロジー企業にとって、人間の健康に関わる高リスク問題の分析と意思決定に不可欠である。 木に基づく手法は、その魅力ある解釈性と複雑な関係を捉える能力のために、textit{survival analysis} に広く採用されている。 しかし、生存木を生産する既存の方法のほとんどはヒューリスティックなアルゴリズムに依存しており、これは準最適モデルを生成するリスクがある。 我々は動的プログラミングと境界付き手法を提案し, わずか数秒で可視的スパースサバイバルツリーモデルを見出す。

Interpretability is crucial for doctors, hospitals, pharmaceutical companies and biotechnology corporations to analyze and make decisions for high stakes problems that involve human health. Tree-based methods have been widely adopted for \textit{survival analysis} due to their appealing interpretablility and their ability to capture complex relationships. However, most existing methods to produce survival trees rely on heuristic (or greedy) algorithms, which risk producing sub-optimal models. We present a dynamic-programming-with-bounds approach that finds provably-optimal sparse survival tree models, frequently in only a few seconds.
翻訳日:2024-01-30 18:53:11 公開日:2024-01-27
# 財務における表データ分析のためのツール利用機能付き言語モデルの適用

Equipping Language Models with Tool Use Capability for Tabular Data Analysis in Finance ( http://arxiv.org/abs/2401.15328v1 )

ライセンス: Link先を確認
Adrian Theuma and Ehsan Shareghi(参考訳) 大規模言語モデル(LLM)は、様々な推論能力を示しているが、エラーの伝播や幻覚といった課題に直面している。 LLM固有の能力にのみ依存するのではなく、これらの制限を緩和し、タスクに適した外部ツールに特定の推論ステップをオフロードする、外部ツールによる言語モデル拡張の可能性を探る。 より具体的には、金融ドメインの質問応答データセットを使用して、llama-2 13bチャットモデルに教師付き微調整を適用し、"タスクルータ"と"タスクソルバ"の両方として動作させる。 タスクルータ」は、LLMの内部で答えるか、ツールセットから適切なツールを介して外部に答えるように動的に指示する。 ツール付きSFTモデルであるRavenは,ベースモデルとSFTのみのベースラインよりも35.2%,5.06%向上し,GPT-3.5と高い競争力を持つ。 私たちの知る限りでは、金融分野における言語モデルのツール拡張を調査するのは私たちの仕事が初めてです。

Large language models (LLMs) have exhibited an array of reasoning capabilities but face challenges like error propagation and hallucination, particularly in specialised areas like finance, where data is heterogeneous, and precision is paramount. We explore the potential of language model augmentation with external tools to mitigate these limitations and offload certain reasoning steps to external tools that are more suited for the task, instead of solely depending on the LLM's inherent abilities. More concretely, using financial domain question-answering datasets, we apply supervised fine-tuning on a LLaMA-2 13B Chat model to act both as a 'task router' and 'task solver'. The 'task router' dynamically directs a question to either be answered internally by the LLM or externally via the right tool from the tool set. Our tool-equipped SFT model, Raven, demonstrates an improvement of 35.2% and 5.06% over the base model and SFT-only baselines, respectively, and is highly competitive with strong GPT-3.5 results. To the best of our knowledge, our work is the first that investigates tool augmentation of language models for the finance domain.
翻訳日:2024-01-30 18:53:00 公開日:2024-01-27
# ドメイン反転学習によるロバストな音楽表現による自動タグ付け

Music Auto-Tagging with Robust Music Representation Learned via Domain Adversarial Training ( http://arxiv.org/abs/2401.15323v1 )

ライセンス: Link先を確認
Haesun Joung, Kyogu Lee(参考訳) 音楽の自動タグ付けは、音楽発見とレコメンデーションの強化に不可欠である。 音楽情報検索(MIR)の既存のモデルは、マルチメディアコンテンツにおける環境や音声などの現実的なノイズに苦しむ。 本研究では,雑音環境における音楽の自動タグ付け性能を向上させるために,音声関連課題に触発された手法を提案する。 このアプローチは、DAT(Domain Adversarial Training)を音楽領域に統合し、ノイズに耐える堅牢な音楽表現を可能にする。 従来の研究とは異なり、このアプローチは、その後のフェーズのパフォーマンス劣化を避けるために、ドメイン分類器のための追加の事前訓練フェーズを含む。 様々な合成ノイズ音楽データを追加することで、異なるノイズレベルにわたるモデルの一般化が向上する。 提案アーキテクチャは,未ラベルの音楽データを活用することで,音楽の自動タグ付けの性能向上を示す。 追加のラベルなしデータによる追加実験は、モデルの性能をさらに改善し、その堅牢な一般化能力と幅広い適用性を強調している。

Music auto-tagging is crucial for enhancing music discovery and recommendation. Existing models in Music Information Retrieval (MIR) struggle with real-world noise such as environmental and speech sounds in multimedia content. This study proposes a method inspired by speech-related tasks to enhance music auto-tagging performance in noisy settings. The approach integrates Domain Adversarial Training (DAT) into the music domain, enabling robust music representations that withstand noise. Unlike previous research, this approach involves an additional pretraining phase for the domain classifier, to avoid performance degradation in the subsequent phase. Adding various synthesized noisy music data improves the model's generalization across different noise levels. The proposed architecture demonstrates enhanced performance in music auto-tagging by effectively utilizing unlabeled noisy music data. Additional experiments with supplementary unlabeled data further improves the model's performance, underscoring its robust generalization capabilities and broad applicability.
翻訳日:2024-01-30 18:52:38 公開日:2024-01-27
# 不完全位相情報を考慮した電力系統におけるダミーデータ注入攻撃の局所化:時空間グラフウェーブレット畳み込みニューラルネットワークアプローチ

Localization of Dummy Data Injection Attacks in Power Systems Considering Incomplete Topological Information: A Spatio-Temporal Graph Wavelet Convolutional Neural Network Approach ( http://arxiv.org/abs/2401.15321v1 )

ライセンス: Link先を確認
Zhaoyang Qu, Yunchang Dong, Yang Li, Siqi Song, Tao Jiang, Min Li, Qiming Wang, Lei Wang, Xiaoyong Bo, Jiye Zang, Qi Xu(参考訳) ddia(ダミー・データ・インジェクション・アタック)の登場は、電力システムの安全で安定した運用に深刻な脅威をもたらす。 これらの攻撃は、注入された悪意のあるデータと正当なデータとの間の極小ユークリッド空間的分離のために特に危険であり、従来の距離に基づく手法で正確な検出が困難になる。 さらに、既存の研究は主に様々な機械学習技術に焦点を当てており、攻撃後の時間的データシーケンスの分析やユークリッド空間特性のみに依存することが多い。 残念なことに、このアプローチは電力グリッドデータの非ユークリッド空間特性に固有のトポロジ的相関を見落とし、結果として攻撃の局所化の精度が低下する傾向にある。 この問題に対処するため,本研究では包括的アプローチを採る。 当初は、電力システムにおけるこれらの新しいDDIAの基本原理について検討した。 ここでは、DDIAの複雑な数学的モデルが設計され、不完全なトポロジカル知識と攻撃者の視点からの交流電流(AC)状態推定を考慮に入れている。 次に、グリッドトポロジーの事前知識を統合し、測定データ内の時間的相関と電力グリッドのトポロジ依存属性を考慮し、時間的および空間的注意行列を導入する。 これらの行列は攻撃中の時空間相関を適応的に捉える。 グラフウェーブレットスパース畳み込みとゲート積み重ね型因果畳み込みを併用し,時空間DDIA特徴を同時抽出した。 最後に,時空間グラフニューラルネットワークを用いたddia位置推定法を提案する。 DDIAモデルの精度と有効性は包括的分析ケースを通して明確に実証される。

The emergence of novel the dummy data injection attack (DDIA) poses a severe threat to the secure and stable operation of power systems. These attacks are particularly perilous due to the minimal Euclidean spatial separation between the injected malicious data and legitimate data, rendering their precise detection challenging using conventional distance-based methods. Furthermore, existing research predominantly focuses on various machine learning techniques, often analyzing the temporal data sequences post-attack or relying solely on Euclidean spatial characteristics. Unfortunately, this approach tends to overlook the inherent topological correlations within the non-Euclidean spatial attributes of power grid data, consequently leading to diminished accuracy in attack localization. To address this issue, this study takes a comprehensive approach. Initially, it examines the underlying principles of these new DDIAs on power systems. Here, an intricate mathematical model of the DDIA is designed, accounting for incomplete topological knowledge and alternating current (AC) state estimation from an attacker's perspective. Subsequently, by integrating a priori knowledge of grid topology and considering the temporal correlations within measurement data and the topology-dependent attributes of the power grid, this study introduces temporal and spatial attention matrices. These matrices adaptively capture the spatio-temporal correlations within the attacks. Leveraging gated stacked causal convolution and graph wavelet sparse convolution, the study jointly extracts spatio-temporal DDIA features. Finally, the research proposes a DDIA localization method based on spatio-temporal graph neural networks. The accuracy and effectiveness of the DDIA model are rigorously demonstrated through comprehensive analytical cases.
翻訳日:2024-01-30 18:52:23 公開日:2024-01-27
# モノクロ3Dオブジェクト検出のためのボトムアップ

You Only Look Bottom-Up for Monocular 3D Object Detection ( http://arxiv.org/abs/2401.15319v1 )

ライセンス: Link先を確認
Kaixin Xiong, Dingyuan Zhang, Dingkang Liang, Zhe Liu, Hongcheng Yang, Wondimu Dikubab, Jianwei Cheng, Xiang Bai(参考訳) モノクロ3次元物体検出は自律運転に不可欠な課題である。 一方、深度情報を失うため、純粋な画像からの正確な3dオブジェクト検出は非常に困難である。 既存の画像ベース手法の多くは、画像平面上の2dサイズに基づいて物体の位置を3d空間で推定するが、画像から固有の位置の手がかりを無視し、不十分な性能をもたらす。 本稿では,人間はボトムアップの位置の手がかりを利用して物体を1枚の画像から3d空間に配置できるという事実に動機づけられ,画像特徴列からの位置モデルを探索し,ボトムアップ(yolobu)と呼ばれる新しい手法を提案する。 具体的には、私たちのYOLOBUはカラムベースのCross Attentionを利用して、その上のピクセルにどれだけのピクセルが寄与するかを判断します。 次に,Row-based Reverse Cumulative Sum (RRCS)を導入し,ボトムアップ方向に画素の接続を構築する。 我々のYOLOBUは、ボトムアップ方式で画素の関係を構築することによって、モノクル3D検出のための位置手がかりをフルに探索する。 KITTIデータセットの大規模な実験により,本手法の有効性と優位性を示した。

Monocular 3D Object Detection is an essential task for autonomous driving. Meanwhile, accurate 3D object detection from pure images is very challenging due to the loss of depth information. Most existing image-based methods infer objects' location in 3D space based on their 2D sizes on the image plane, which usually ignores the intrinsic position clues from images, leading to unsatisfactory performances. Motivated by the fact that humans could leverage the bottom-up positional clues to locate objects in 3D space from a single image, in this paper, we explore the position modeling from the image feature column and propose a new method named You Only Look Bottum-Up (YOLOBU). Specifically, our YOLOBU leverages Column-based Cross Attention to determine how much a pixel contributes to pixels above it. Next, the Row-based Reverse Cumulative Sum (RRCS) is introduced to build the connections of pixels in the bottom-up direction. Our YOLOBU fully explores the position clues for monocular 3D detection via building the relationship of pixels from the bottom-up way. Extensive experiments on the KITTI dataset demonstrate the effectiveness and superiority of our method.
翻訳日:2024-01-30 18:51:53 公開日:2024-01-27
# gaussian splashing: gaussian splattingによる動的流体合成

Gaussian Splashing: Dynamic Fluid Synthesis with Gaussian Splatting ( http://arxiv.org/abs/2401.15318v1 )

ライセンス: Link先を確認
Yutao Feng, Xiang Feng, Yintong Shang, Ying Jiang, Chang Yu, Zeshun Zong, Tianjia Shao, Hongzhi Wu, Kun Zhou, Chenfanfu Jiang, Yin Yang(参考訳) 立体・流体の物理アニメーションを3次元ガウススプラッティング(3DGS)と統合して3DGSを用いて再構成した仮想シーンにおける新たな効果を創出する可能性を示す。 基礎表現におけるガウス型スプラッティングと位置に基づくダイナミクス(pbd)のコヒーレンスを活用することで、固形体や流体のレンダリング、ビュー合成、ダイナミクスを凝集的な方法で管理する。 ガウスのシェーダと同様に、各ガウスのカーネルを正規値を追加して拡張し、カーネルの向きを表面正規値に整合させてPBDシミュレーションを洗練させる。 このアプローチは固体の回転変形から生じるスパイクノイズを効果的に排除する。 また、物理ベースのレンダリングを統合することで、流体の動的表面反射を増大させることができる。 その結果,本フレームワークは動的流体上の表面ハイライトを現実的に再現し,新たな視点からシーンオブジェクトと流体間の相互作用を容易にする。 詳しくは、プロジェクトのページ(https://amysteriouscat.github.io/gaussiansplashing/})をご覧ください。

We demonstrate the feasibility of integrating physics-based animations of solids and fluids with 3D Gaussian Splatting (3DGS) to create novel effects in virtual scenes reconstructed using 3DGS. Leveraging the coherence of the Gaussian splatting and position-based dynamics (PBD) in the underlying representation, we manage rendering, view synthesis, and the dynamics of solids and fluids in a cohesive manner. Similar to Gaussian shader, we enhance each Gaussian kernel with an added normal, aligning the kernel's orientation with the surface normal to refine the PBD simulation. This approach effectively eliminates spiky noises that arise from rotational deformation in solids. It also allows us to integrate physically based rendering to augment the dynamic surface reflections on fluids. Consequently, our framework is capable of realistically reproducing surface highlights on dynamic fluids and facilitating interactions between scene objects and fluids from new views. For more information, please visit our project page at \url{https://amysteriouscat.github.io/GaussianSplashing/}.
翻訳日:2024-01-30 18:51:19 公開日:2024-01-27
# 混合可変最適化によるVLSIのフロアプランニング

Floorplanning of VLSI by Mixed-Variable Optimization ( http://arxiv.org/abs/2401.15317v1 )

ライセンス: Link先を確認
Jian Sun and Huabin Cheng and Jian Wu and Zhanyang Zhu and Yu Chen(参考訳) 本稿では,VLSIのフロアプランニングを混合変数最適化問題として定式化し,確率モデルの集団(DEA-PPM)に基づく分布進化アルゴリズムにより離散配向変数に対処し,共役部分勾配アルゴリズム(CSA)により連続座標変数を最適化するメメティックアルゴリズムを提案する。 そこで, CSA と DEA-PPM (FFA-CD) に基づく固定アウトラインフロアプランニングアルゴリズムとゴールデンセクション戦略 (FA-GSS) を用いたフロアプランニングアルゴリズムを, 固定アウトライン制約のないフロアプランニング問題に対して提案する。 %FF-CDは固定プロファイル内でのワイヤ長目標の最適化にコミットする。 FA-GSSはゴールデンセクション戦略を使用して、ワイヤ長とエリアターゲットの両方を最適化する。 CSAは提案した非滑らかな最適化モデルを解くために使用され、DEA-PPMはアルゴリズムの柔軟性を高めるためにモジュール回転スキームを探索するために使用される。 gsrcテスト回路における数値実験により,提案手法は有名なb*-tree系フロアプランニングアルゴリズムよりも優れており,その複雑性が低かったため大規模フロアプランニング問題に適用できる可能性が示唆された。

By formulating the floorplanning of VLSI as a mixed-variable optimization problem, this paper proposes to solve it by memetic algorithms, where the discrete orientation variables are addressed by the distribution evolutionary algorithm based on a population of probability model (DEA-PPM), and the continuous coordination variables are optimized by the conjugate sub-gradient algorithm (CSA). Accordingly, the fixed-outline floorplanning algorithm based on CSA and DEA-PPM (FFA-CD) and the floorplanning algorithm with golden section strategy (FA-GSS) are proposed for the floorplanning problems with and without fixed-outline constraint. %FF-CD is committed to optimizing wirelength targets within a fixed profile. FA-GSS uses the Golden Section strategy to optimize both wirelength and area targets. The CSA is used to solve the proposed non-smooth optimization model, and the DEA-PPM is used to explore the module rotation scheme to enhance the flexibility of the algorithm. Numerical experiments on GSRC test circuits show that the proposed algorithms are superior to some celebrated B*-tree based floorplanning algorithms, and are expected to be applied to large-scale floorplanning problems due to their low time complexity.
翻訳日:2024-01-30 18:50:49 公開日:2024-01-27
# UNSEE: 教師なしの非コントラスト文の埋め込み

UNSEE: Unsupervised Non-contrastive Sentence Embeddings ( http://arxiv.org/abs/2401.15316v1 )

ライセンス: Link先を確認
\"Omer Veysel \c{C}a\u{g}atan(参考訳) UNSEE: Unsupervised Non-Contrastive Sentence Embeddingsは、Massive Text EmbeddingベンチマークにおいてSimCSEを上回った新しいアプローチである。 我々の探索は、SimCSEのコントラスト目的を非コントラスト目的に置き換えたときに観察される現象である表現崩壊の課題に対処することから始まる。 この問題に対処するために,ターゲットネットワークと呼ばれる簡単な解を提案し,表現の崩壊を効果的に緩和する。 目標ネットワークの導入により,非一貫性目標の活用,トレーニング安定性の維持,コントラスト目標に匹敵するパフォーマンス向上が実現できます。 本手法は,微調整と最適化により,非コントラスト文の埋め込みにおいてピーク性能を達成した。 この包括的努力により,提案手法の有効性を示す優れた文表現モデルが得られた。

We present UNSEE: Unsupervised Non-Contrastive Sentence Embeddings, a novel approach that outperforms SimCSE in the Massive Text Embedding benchmark. Our exploration begins by addressing the challenge of representation collapse, a phenomenon observed when contrastive objectives in SimCSE are replaced with non-contrastive objectives. To counter this issue, we propose a straightforward solution known as the target network, effectively mitigating representation collapse. The introduction of the target network allows us to leverage non-contrastive objectives, maintaining training stability while achieving performance improvements comparable to contrastive objectives. Our method has achieved peak performance in non-contrastive sentence embeddings through meticulous fine-tuning and optimization. This comprehensive effort has yielded superior sentence representation models, showcasing the effectiveness of our approach.
翻訳日:2024-01-30 18:50:12 公開日:2024-01-27
# 可観測性解析によるse(2)におけるマルチロボット相対ポーズ推定:拡張カルマンフィルタとロバストポーズグラフ最適化の比較

Multi-Robot Relative Pose Estimation in SE(2) with Observability Analysis: A Comparison of Extended Kalman Filtering and Robust Pose Graph Optimization ( http://arxiv.org/abs/2401.15313v1 )

ライセンス: Link先を確認
Kihoon Shin, Hyunjae Sim, Seungwon Nam, Yonghee Kim, Jae Hu and Kwang-Ki K. Kim(参考訳) 本稿では,協調的局所化と相対的ポーズ推定の可観測性分析に着目したマルチロボットの局所化問題を考察する。 協調的ローカライゼーションには、通信ネットワークとメッセージパッシングを介して各ロボットに追加情報を提供する。 対象ロボットの計測データをエゴロボットに送信できる場合、両方の直線速度がゼロでない場合に、その相対的なポーズ推定の可観測性はレンジのみまたはベアリングのみの測定により達成できる。 対象ロボットのオドメトリデータが直接伝達されるのではなく、ego-robotによって推定される場合、相対的なポーズ推定の可観測性を保証するために、範囲と軸受の測定値の両方が必要である。 ROS/Gazebo シミュレーションでは,拡張カルマンフィルタ (EKF) とポーズグラフ最適化 (PGO) を異なるロバストな損失関数(スライディングウィンドウのバッチサイズが異なるフィルタリングと平滑化)で推定する4つの異なるセンシング・通信構造を推定精度で比較する。 ハードウェア実験では、実世界のロボット間相対ポーズ推定にUWBモジュールを備えた2つのTurtlebot3を使用し、EKFとPGOの両方を適用して比較する。

In this paper, we consider multi-robot localization problems with focus on cooperative localization and observability analysis of relative pose estimation. For cooperative localization, there is extra information available to each robot via communication network and message passing. If odometry data of a target robot can be transmitted to the ego-robot then the observability of their relative pose estimation can be achieved by range-only or bearing-only measurements provided both of their linear velocities are non-zero. If odometry data of a target robot is not directly transmitted but estimated by the ego-robot then there must be both range and bearing measurements to guarantee the observability of relative pose estimation. For ROS/Gazebo simulations, we consider four different sensing and communication structures in which extended Kalman filtering (EKF) and pose graph optimization (PGO) estimation with different robust loss functions (filtering and smoothing with different batch sizes of sliding window) are compared in terms of estimation accuracy. For hardware experiments, two Turtlebot3 equipped with UWB modules are used for real-world inter-robot relative pose estimation, in which both EKF and PGO are applied and compared.
翻訳日:2024-01-30 18:49:19 公開日:2024-01-27
# 主張に反論する: 欠陥の同定と説明による自動ファクトチェッキング

How We Refute Claims: Automatic Fact-Checking through Flaw Identification and Explanation ( http://arxiv.org/abs/2401.15312v1 )

ライセンス: Link先を確認
Wei-Yu Kao and An-Zi Yen(参考訳) 自動ファクトチェックは、インターネットコンテンツのガバナンスにおいて重要なタスクである。 様々な研究が先進的なモデルを用いてこの問題に取り組んでいるが、複雑な現実世界の噂や偽りの主張に対処する上で大きなギャップが続いている。 この課題に対処するため,本稿では,アスペクト生成や欠陥同定など,欠陥指向のファクトチェックの新たなタスクについて検討する。 このタスク用に特別に設計された新しいフレームワークであるrefuteclaimも紹介します。 既存のデータセットがないことを前提に、専門家レビューから洞察を抽出し、関連する側面と特定された欠陥に変換したデータセットであるtackcheckを提案する。 実験結果は,RefuteClaimの有効性,特に偽主張の分類と解明に有効であることを示した。

Automated fact-checking is a crucial task in the governance of internet content. Although various studies utilize advanced models to tackle this issue, a significant gap persists in addressing complex real-world rumors and deceptive claims. To address this challenge, this paper explores the novel task of flaw-oriented fact-checking, including aspect generation and flaw identification. We also introduce RefuteClaim, a new framework designed specifically for this task. Given the absence of an existing dataset, we present FlawCheck, a dataset created by extracting and transforming insights from expert reviews into relevant aspects and identified flaws. The experimental results underscore the efficacy of RefuteClaim, particularly in classifying and elucidating false claims.
翻訳日:2024-01-30 18:48:25 公開日:2024-01-27
# ParaTransCNN: 医療画像セグメンテーションのための並列トランスCNNエンコーダ

ParaTransCNN: Parallelized TransCNN Encoder for Medical Image Segmentation ( http://arxiv.org/abs/2401.15307v1 )

ライセンス: Link先を確認
Hongkun Sun, Jing Xu, and Yuping Duan(参考訳) 畳み込みニューラルネットワークに基づく手法は、その優れた性能により、医用画像セグメンテーションにおいてますます普及している。 しかし、グローバルな文脈相関を正確にモデル化するためには、長距離依存関係の取得に苦労する。 受容場を拡張して長距離依存性をモデル化する能力により、トランスフォーマティブベースの手法が普及した。 そこで本研究では,畳み込みニューラルネットワークとトランスフォーマーアーキテクチャを組み合わせた2次元特徴抽出手法を提案する。 具体的には、並列化エンコーダ構造を導入し、一方のブランチはResNetを使って画像からローカル情報を抽出し、他方のブランチはTransformerを使ってグローバル情報を抽出する。 さらに,ピラミッド構造を変圧器に統合することで,特に集中的な予測タスクにおいて,様々な解像度でグローバル情報を抽出する。 並列化エンコーダにおける異なる情報をデコーダ段階で効率的に活用するために,チャネルアテンションモジュールを用いてエンコーダの特徴をマージし,スキップ接続やボトルネックを通じて伝搬する。 大動脈血管, 心臓, および多臓器データセットについて, 集中的な数値実験を行った。 最先端の医用画像分割法との比較により,特に小器官における画像分割精度が向上した。 コードはhttps://github.com/HongkunSun/ParaTransCNNで公開されている。

The convolutional neural network-based methods have become more and more popular for medical image segmentation due to their outstanding performance. However, they struggle with capturing long-range dependencies, which are essential for accurately modeling global contextual correlations. Thanks to the ability to model long-range dependencies by expanding the receptive field, the transformer-based methods have gained prominence. Inspired by this, we propose an advanced 2D feature extraction method by combining the convolutional neural network and Transformer architectures. More specifically, we introduce a parallelized encoder structure, where one branch uses ResNet to extract local information from images, while the other branch uses Transformer to extract global information. Furthermore, we integrate pyramid structures into the Transformer to extract global information at varying resolutions, especially in intensive prediction tasks. To efficiently utilize the different information in the parallelized encoder at the decoder stage, we use a channel attention module to merge the features of the encoder and propagate them through skip connections and bottlenecks. Intensive numerical experiments are performed on both aortic vessel tree, cardiac, and multi-organ datasets. By comparing with state-of-the-art medical image segmentation methods, our method is shown with better segmentation accuracy, especially on small organs. The code is publicly available on https://github.com/HongkunSun/ParaTransCNN.
翻訳日:2024-01-30 18:48:12 公開日:2024-01-27
# AI気象モデルのための実践的確率的ベンチマーク

A Practical Probabilistic Benchmark for AI Weather Models ( http://arxiv.org/abs/2401.15305v1 )

ライセンス: Link先を確認
Noah D. Brenowitz and Yair Cohen and Jaideep Pathak and Ankur Mahesh and Boris Bonev and Thorsten Kurth and Dale R. Durran and Peter Harrington and Michael S. Pritchard(参考訳) 天気はカオスであるため、予測は単一の予測ではなく、将来の状態の分布を予測することを目的としている。 最近、複数のデータ駆動気象モデルがスキルのブレークスルーを主張している。 しかし、これらは主に決定論的スキルスコアを用いてベンチマークされており、その確率的スキルについてはほとんど知られていない。 残念ながら、アンサンブル初期化の選択、状態の定義、ノイズ注入方法論のバリエーションが一体化しているため、aiの気象モデルを確率的に比較することは難しい。 さらに、関連するデータ量を考えると、アンサンブル予測ベースラインを取得することさえ、かなりのエンジニアリング上の課題である。 我々は、何十年も前からあるアイデア、ラッジ・アンサンブル(Lagged ensembles)を適用して、両方の問題を横取りし、中程度のサイズの決定論的予測ライブラリからアンサンブルを構築することができる。 これにより、AI天気モデルの運用ベースラインに対する確率的スキルの最初のパラメータフリー比較が可能になる。 その結果、前者が決定論的スコアで後者を上回っているにもかかわらず、主要な2つのAI天気モデル、すなわちGraphCastとPanguが確率論的CRPSメトリクスに結びついていることが判明した。 また、多くのデータ駆動型気象モデルが採用している複数の時間ステップ損失関数が、非生産的であることも明らかにしている。 これは、AI天気予報に対する球状フーリエニューラル演算子(SFNO)アプローチの適用により確認される。 有効解像度を変調する別々のsfnoアブレーションは、適切なアンサンブルキャリブレーションの達成に関連するアンサンブル分散に有用な効果を示す。 タグ付けされたアンサンブルからのこれらと今後の洞察が、AI天気予報の開発をガイドし、診断コードを共有できることを願っている。

Since the weather is chaotic, forecasts aim to predict the distribution of future states rather than make a single prediction. Recently, multiple data driven weather models have emerged claiming breakthroughs in skill. However, these have mostly been benchmarked using deterministic skill scores, and little is known about their probabilistic skill. Unfortunately, it is hard to fairly compare AI weather models in a probabilistic sense, since variations in choice of ensemble initialization, definition of state, and noise injection methodology become confounding. Moreover, even obtaining ensemble forecast baselines is a substantial engineering challenge given the data volumes involved. We sidestep both problems by applying a decades-old idea -- lagged ensembles -- whereby an ensemble can be constructed from a moderately-sized library of deterministic forecasts. This allows the first parameter-free intercomparison of leading AI weather models' probabilistic skill against an operational baseline. The results reveal that two leading AI weather models, i.e. GraphCast and Pangu, are tied on the probabilistic CRPS metric even though the former outperforms the latter in deterministic scoring. We also reveal how multiple time-step loss functions, which many data-driven weather models have employed, are counter-productive: they improve deterministic metrics at the cost of increased dissipation, deteriorating probabilistic skill. This is confirmed through ablations applied to a spherical Fourier Neural Operator (SFNO) approach to AI weather forecasting. Separate SFNO ablations modulating effective resolution reveal it has a useful effect on ensemble dispersion relevant to achieving good ensemble calibration. We hope these and forthcoming insights from lagged ensembles can help guide the development of AI weather forecasts and have thus shared the diagnostic code.
翻訳日:2024-01-30 18:47:48 公開日:2024-01-27
# Open-RadVLAD:高速かつロバストなレーダー位置認識

Open-RadVLAD: Fast and Robust Radar Place Recognition ( http://arxiv.org/abs/2401.15380v1 )

ライセンス: Link先を確認
Matthew Gadd, Paul Newman(参考訳) レーダー位置認識は、しばしばライブスキャンをベクトルとして符号化し、車両が以前訪れた場所にあることを認識するために、このベクトルをデータベースにマッチさせる。 レーダーは本質的に照明や気象条件に頑健であるが、このセンサーによる位置認識は、(1)視点の変化、すなわち翻訳と回転、(2)センサアーティファクトや「ノイズ」に影響されている。 360度スキャニングレーダの場合、回転は何らかの方法で方位を集約することで容易に処理される。 また、本研究では、特に道路を繰り返すときに主に車両が同じ車線をたどる都市運転において、翻訳的不変性を扱うよりも、表現とセンサノイズの豊かさを扱うことがより重要であると論じている。 計算効率の面では極性表現のみを用いる。 信号雑音に対する部分的変換不変性とロバスト性のためには、ラジアルリターンに沿って1次元フーリエ変換のみを用いる。 また,局所集計ディスクリプタのベクトルを構築することにより,回転不変性と非常に識別的なディスクリプタ空間を実現する。 我々の手法は、オックスフォード・レーダー・ロボットカー・データセット(約10km)の870対の軌道を網羅的に組み合わせて、従来の全てのレーダー位置認識作業よりも包括的にテストされている。 コードと詳細な結果はgithub.com/mttgdd/open-radvladで提供されている。 Recall@1 では 91.52% の中央値を実現し、他のオープン実装である RaPlace の69.55% を上回り、計算コストのごく一部(例えば Radon, Fourier, inverse Fourier など)を上回ります。

Radar place recognition often involves encoding a live scan as a vector and matching this vector to a database in order to recognise that the vehicle is in a location that it has visited before. Radar is inherently robust to lighting or weather conditions, but place recognition with this sensor is still affected by: (1) viewpoint variation, i.e. translation and rotation, (2) sensor artefacts or "noises". For 360-degree scanning radar, rotation is readily dealt with by in some way aggregating across azimuths. Also, we argue in this work that it is more critical to deal with the richness of representation and sensor noises than it is to deal with translational invariance - particularly in urban driving where vehicles predominantly follow the same lane when repeating a route. In our method, for computational efficiency, we use only the polar representation. For partial translation invariance and robustness to signal noise, we use only a one-dimensional Fourier Transform along radial returns. We also achieve rotational invariance and a very discriminative descriptor space by building a vector of locally aggregated descriptors. Our method is more comprehensively tested than all prior radar place recognition work - over an exhaustive combination of all 870 pairs of trajectories from 30 Oxford Radar RobotCar Dataset sequences (each approximately 10 km). Code and detailed results are provided at github.com/mttgdd/open-radvlad, as an open implementation and benchmark for future work in this area. We achieve a median of 91.52% in Recall@1, outstripping the 69.55% for the only other open implementation, RaPlace, and at a fraction of its computational cost (relying on fewer integral transforms e.g. Radon, Fourier, and inverse Fourier).
翻訳日:2024-01-30 18:40:43 公開日:2024-01-27
# RAGに基づくイスラム教理解のための質問応答システムの提案:MufassirQAS LLM

A RAG-based Question Answering System Proposal for Understanding Islam: MufassirQAS LLM ( http://arxiv.org/abs/2401.15378v1 )

ライセンス: Link先を確認
Ahmet Yusuf Alan, Enis Karaarslan, Omer Aydin(参考訳) 宗教の教義と教えの複雑さと深さの存在として、宗教の学習と理解に課題がある。 質問応答システムとしてのチャットボットは、これらの課題を解決するのに役立つ。 LLMチャットボットはNLP技術を用いてトピック間の接続を確立し、複雑な質問に正確に応答する。 これらの能力は、チャットボットに答える質問として宗教啓蒙に使用するのに最適である。 しかし、LSMは幻覚として知られる偽情報を生成する傾向がある。 チャットボットの反応には、個人的な宗教的信念を侮辱するコンテンツ、信仰間の対立、論争やセンシティブなトピックが含まれる。 ヘイトスピーチを宣伝したり、特定のグループやその信念を非難したりすることなく、そのような事件を避ける必要がある。 本研究は,LLMの精度と透明性を高めるために,ベクトルデータベースに基づくRetrieval Augmented Generation(RAG)アプローチを用いる。 質問応答システムは「MufassirQAS」と呼ばれる。 トルコのコンテキストを含むいくつかのオープンアクセスブックを備えたベクトルデータベースを作成しました。 これらはトルコ語訳であり、イスラム教の解釈である。 我々は,システムプロンプトの作成と,有害,攻撃的,あるいは無礼な反応を防止するための指示の提供に取り組んできた。 また, MufassirQAS と ChatGPT も検討した。 私たちはシステムの性能が良くなった。 研究と強化はまだ進行中である。 結果と今後の成果が示される。

There exist challenges in learning and understanding religions as the presence of complexity and depth of religious doctrines and teachings. Chatbots as question-answering systems can help in solving these challenges. LLM chatbots use NLP techniques to establish connections between topics and accurately respond to complex questions. These capabilities make it perfect to be used in enlightenment on religion as a question answering chatbot. However, LLMs also have a tendency to generate false information, known as hallucination. The responses of the chatbots can include content that insults personal religious beliefs, interfaith conflicts, and controversial or sensitive topics. It needs to avoid such cases without promoting hate speech or offending certain groups of people or their beliefs. This study uses a vector database-based Retrieval Augmented Generation (RAG) approach to enhance the accuracy and transparency of LLMs. Our question-answering system is called as "MufassirQAS". We created a vector database with several open-access books that include Turkish context. These are Turkish translations, and interpretations on Islam. We worked on creating system prompts with care, ensuring they provide instructions that prevent harmful, offensive, or disrespectful responses. We also tested the MufassirQAS and ChatGPT with sensitive questions. We got better performance with our system. Study and enhancements are still in progress. Results and future works are given.
翻訳日:2024-01-30 18:40:10 公開日:2024-01-27
# 誘導電動機の音響挙動をモデル化するための人工ニューラルネットワークの検証

Validation of artificial neural networks to model the acoustic behaviour of induction motors ( http://arxiv.org/abs/2401.15377v1 )

ライセンス: Link先を確認
F.J. Jimenez-Romero, D. Guijo-Rubio, F.R. Lara-Raya, A. Ruiz-Gonzalez, C. Hervas-Martinez(参考訳) 過去10年間では、誘導電動機の音質が研究分野においてホットな話題となっている。 特に、その適用頻度が高いため、住民は騒音の放出による身体的、心理的な不快感にさらされている。 そのため、人口に対する心理的影響を最小限に抑える必要がある。 このようにして、誘導電動機の心理音響パラメータを同時に予測するモデリング手法として、マルチタスク人工ニューラルネットワークの使用を評価することが主な目的である。 いくつかの入力は、電気モーターのノイズと環境ノイズを分離する代わりに、モーターの電力信号の電気的大きさや極の数などに使われる。 等価な音圧, ラウドネス, 粗さ, シャープネスを出力として用いることにより, 誘導電動機の音響品質を評価するために, 2種類のニューラルネットワークが提案されている。 具体的には、単純なモデルとより複雑なモデルという2つの異なるトポロジが検討されている。 前者はより解釈可能であり、後者は原因と効果の関係を隠蔽するコストで高い精度をもたらす。 単純な解釈可能なモデルに注目して、製品ユニットニューラルネットワークは、MSEとSEPの最良の結果を得た。 この製品ユニットモデルの主な利点は、マルチタスクのニューラルネットワークの効果的な転送機構を概説し、複数のタスクの共通した特徴を抽出する10個の入力変数のみを使用するため、その単純さである。 最後に、最良製品単位ニューラルネットワークを用いた誘導電動機の音響品質の深い解析を行う。

In the last decade, the sound quality of electric induction motors is a hot topic in the research field. Specially, due to its high number of applications, the population is exposed to physical and psychological discomfort caused by the noise emission. Therefore, it is necessary to minimise its psychological impact on the population. In this way, the main goal of this work is to evaluate the use of multitask artificial neural networks as a modelling technique for simultaneously predicting psychoacoustic parameters of induction motors. Several inputs are used, such as, the electrical magnitudes of the motor power signal and the number of poles, instead of separating the noise of the electric motor from the environmental noise. Two different kind of artificial neural networks are proposed to evaluate the acoustic quality of induction motors, by using the equivalent sound pressure, the loudness, the roughness and the sharpness as outputs. Concretely, two different topologies have been considered: simple models and more complex models. The former are more interpretable, while the later lead to higher accuracy at the cost of hiding the cause-effect relationship. Focusing on the simple interpretable models, product unit neural networks achieved the best results: for MSE and for SEP. The main benefit of this product unit model is its simplicity, since only 10 inputs variables are used, outlining the effective transfer mechanism of multitask artificial neural networks to extract common features of multiple tasks. Finally, a deep analysis of the acoustic quality of induction motors in done using the best product unit neural networks.
翻訳日:2024-01-30 18:39:51 公開日:2024-01-27
# LegalDuet: Dual-View Legal Clue Reasoningによる法的判断予測のための効果的な表現学習

LegalDuet: Learning Effective Representations for Legal Judgment Prediction through a Dual-View Legal Clue Reasoning ( http://arxiv.org/abs/2401.15371v1 )

ライセンス: Link先を確認
Pengjie Liu, Zhenghao Liu, Xiaoyuan Yi, Liner Yang, Shuo Wang, Yu Gu, Ge Yu, Xing Xie, Shuang-hua Yang(参考訳) 既存の法的判断予測(LJP)モデルは、刑事事実記述の法的引き金を見つけることに焦点を当てている。 しかし、現実のシナリオでは、専門家の裁判官は、過去の刑罰判決に基づく裁判経験を同化するだけでなく、専門の法的知識から学んだ専門の法的根拠に基づく推論にも依存する。 本稿では,法的判断を行うための埋込み空間を学習するために,言語モデルを事前学習する法律デュエットモデルを提案する。 二重視点の法的手がかり推論機構を提案し、裁判官の2つの推論連鎖から導かれる。 1) アナロジー/コンサルの事例から学んだ判断経験に基づいて法的判断を行う訴訟推論 2) 刑事事件と法的判断の法的手がかりを一致させる法律的根拠推論 我々の実験によると、LegalDuetはCAIL2018データセットで最先端のパフォーマンスを達成し、平均4%の改善でベースラインを上回っている。 我々のデュアルビュー推論に基づく事前訓練は、刑事事件を識別するための適切な埋め込み空間を学ぶための重要な法的手がかりを捉えることができる。 予測中のLegalDuetの不確実性を低減し、混乱/低頻度の課金に事前訓練の進歩をもたらす。 すべてのコードはhttps://github.com/neuir/legalduetで入手できる。

Most existing Legal Judgment Prediction (LJP) models focus on discovering the legal triggers in the criminal fact description. However, in real-world scenarios, a professional judge not only needs to assimilate the law case experience that thrives on past sentenced legal judgments but also depends on the professional legal grounded reasoning that learned from professional legal knowledge. In this paper, we propose a LegalDuet model, which pretrains language models to learn a tailored embedding space for making legal judgments. It proposes a dual-view legal clue reasoning mechanism, which derives from two reasoning chains of judges: 1) Law Case Reasoning, which makes legal judgments according to the judgment experiences learned from analogy/confusing legal cases; 2) Legal Ground Reasoning, which lies in matching the legal clues between criminal cases and legal decisions. Our experiments show that LegalDuet achieves state-of-the-art performance on the CAIL2018 dataset and outperforms baselines with about 4% improvements on average. Our dual-view reasoning based pretraining can capture critical legal clues to learn a tailored embedding space to distinguish criminal cases. It reduces LegalDuet's uncertainty during prediction and brings pretraining advances to the confusing/low frequent charges. All codes are available at https://github.com/NEUIR/LegalDuet.
翻訳日:2024-01-30 18:39:30 公開日:2024-01-27
# 知識蒸留による漫画インクリメンタル・スーパーレゾリューション

Face to Cartoon Incremental Super-Resolution using Knowledge Distillation ( http://arxiv.org/abs/2401.15366v1 )

ライセンス: Link先を確認
Trinetra Devkatte, Shiv Ram Dubey, Satish Kumar Singh, Abdenour Hadid(参考訳) 顔の超解像/幻覚は、様々な用途で低解像度の顔画像を強化する研究の重要領域である。 Generative Adversarial Networks(GANs)はこの分野で有望だが、新しい、目に見えないデータに適応する能力は依然として課題である。 本稿では,gans with knowledge distillation (isr-kd) を用いたマンガ対効果の高分解能化を提案する。 この分野におけるこれまでの研究は、新たなデータが継続的に生成される現実世界のアプリケーションにとって重要な、インクリメンタルラーニングを調査していない。 提案したISR-KDは,マンガの顔や様々なレベルのディテールなど,さまざまな設定を処理できる,顔超解像のための新しい統合フレームワークを開発することを目的としている。 これを実現するため、GANベースの超解像ネットワークをCelebAデータセット上で事前トレーニングし、iCartoonFaceデータセット上で漸進的にトレーニングし、知識蒸留を用いてCelebAテストセットのパフォーマンスを維持しながら、iCartoonFaceテストセットのパフォーマンスを改善した。 本実験は,gansにおける顔幻覚課題の学習知識を保ちつつ,マンガ顔超解像モデルに段階的な付加能力を有する知識蒸留の有効性を実証する。

Facial super-resolution/hallucination is an important area of research that seeks to enhance low-resolution facial images for a variety of applications. While Generative Adversarial Networks (GANs) have shown promise in this area, their ability to adapt to new, unseen data remains a challenge. This paper addresses this problem by proposing an incremental super-resolution using GANs with knowledge distillation (ISR-KD) for face to cartoon. Previous research in this area has not investigated incremental learning, which is critical for real-world applications where new data is continually being generated. The proposed ISR-KD aims to develop a novel unified framework for facial super-resolution that can handle different settings, including different types of faces such as cartoon face and various levels of detail. To achieve this, a GAN-based super-resolution network was pre-trained on the CelebA dataset and then incrementally trained on the iCartoonFace dataset, using knowledge distillation to retain performance on the CelebA test set while improving the performance on iCartoonFace test set. Our experiments demonstrate the effectiveness of knowledge distillation in incrementally adding capability to the model for cartoon face super-resolution while retaining the learned knowledge for facial hallucination tasks in GANs.
翻訳日:2024-01-30 18:39:06 公開日:2024-01-27
# oracleの骨スクリプト認識と解読のためのオープンデータセット

An open dataset for oracle bone script recognition and decipherment ( http://arxiv.org/abs/2401.15365v1 )

ライセンス: Link先を確認
Pengjie Wang, Kaile Zhang, Yuliang Liu, Jinpeng Wan, Haisu Guan, Zhebin Kuang, Xinyu Wang, Lianwen Jin, Xiang Bai(参考訳) Oracle Bone Script (OBS) は、古代中国最古の書物として知られており、3000年前にさかのぼる上海王朝の人文と地理に関する貴重な知見を持っている。 これらの著作の歴史的・文化的意義は過大評価されない。 しかし、時間の経過はそれらの意味の多くを曖昧にしており、これらの古代のテキストを解読する上で重要な課題となっている。 人工知能(AI)の出現により、OBSの解釈を支援するAIが実現可能な選択肢となった。 しかし、この分野の進歩は高品質なデータセットの欠如によって妨げられている。 本稿では,HUST-OBSデータセットの作成について詳述する。 このデータセットは1,588個の解読されたスクリプトの77,064個の画像と9,411個の未解読文字の62,989個の画像を含む。 さらに、すべての画像とラベルは、oracle bone studiesの専門家によってレビューされ、修正されています。 このデータセットは、未知のOBSを解読する将来の研究を刺激し、支援することを期待している。

Oracle Bone Script (OBS), one of the earliest known forms of ancient Chinese writing, holds invaluable insights into the humanities and geography of the Shang Dynasty, dating back 3,000 years. The immense historical and cultural significance of these writings cannot be overstated. However, the passage of time has obscured much of their meaning, presenting a significant challenge in deciphering these ancient texts. With the advent of Artificial Intelligence (AI), employing AI to assist in interpreting OBS has become a feasible option. Yet, progress in this area has been hindered by a lack of high-quality datasets. To address this issue, this paper details the creation of the HUST-OBS dataset. This dataset encompasses 77,064 images of 1,588 individual deciphered scripts and 62,989 images of 9,411 undeciphered characters, with a total of 140,053 images, compiled from diverse sources. Additionally, all images and labels have been reviewed and corrected by experts in oracle bone studies. The hope is that this dataset could inspire and assist future research in deciphering those unknown OBS.
翻訳日:2024-01-30 18:38:43 公開日:2024-01-27
# 教師なし画像検索のためのトランスフォーマーベースクリッピングコントラスト量子化学習

Transformer-based Clipped Contrastive Quantization Learning for Unsupervised Image Retrieval ( http://arxiv.org/abs/2401.15362v1 )

ライセンス: Link先を確認
Ayush Dubey, Shiv Ram Dubey, Satish Kumar Singh, Wei-Ta Chu(参考訳) 教師なし画像検索は、与えられたクエリ画像の類似画像を取得するために、任意のレベルなしに重要な視覚特性を学習することを目的としている。 畳み込みニューラルネットワーク(CNN)ベースのアプローチは、画像ハッシュのための自己教師付きコントラスト学習によって広く活用されている。 しかし、既存のアプローチは、CNNによるグローバルな特徴の有効利用の欠如と、対照的な学習において偽陰性ペアが生み出す偏見に悩まされている。 本稿では,パッチベース処理による局所的コンテキストを持つトランスフォーマを用いて画像のグローバルコンテキストを符号化し,製品量子化によるハッシュコードの生成と,クリップ型コントラスト学習による潜在的な偽陰性ペアの回避により,トランスクリプトclrモデルを提案する。 CIFAR10, NUS-Wide, Flickr25Kを含むベンチマークデータセットの教師なし画像検索において, 最近の最先端のディープモデルと比較して, 優れた性能で検証した。 提案するクリップ型コントラスト学習は,バニラコントラスト学習を用いた同じバックボーンネットワークと比較して,全データセットにおいて大幅に改善されている。

Unsupervised image retrieval aims to learn the important visual characteristics without any given level to retrieve the similar images for a given query image. The Convolutional Neural Network (CNN)-based approaches have been extensively exploited with self-supervised contrastive learning for image hashing. However, the existing approaches suffer due to lack of effective utilization of global features by CNNs and biased-ness created by false negative pairs in the contrastive learning. In this paper, we propose a TransClippedCLR model by encoding the global context of an image using Transformer having local context through patch based processing, by generating the hash codes through product quantization and by avoiding the potential false negative pairs through clipped contrastive learning. The proposed model is tested with superior performance for unsupervised image retrieval on benchmark datasets, including CIFAR10, NUS-Wide and Flickr25K, as compared to the recent state-of-the-art deep models. The results using the proposed clipped contrastive learning are greatly improved on all datasets as compared to same backbone network with vanilla contrastive learning.
翻訳日:2024-01-30 18:38:23 公開日:2024-01-27
# 理想量子気体における量子縮退とスピン絡み合い

Quantum degeneracy and spin entanglement in ideal quantum gases ( http://arxiv.org/abs/2401.15357v1 )

ライセンス: Link先を確認
Fatma Zouari Ahmed, Mohammed Tayeb Meftah, Tommaso Roscilde(参考訳) 量子縮退は、量子力学から生じる理想量子気体の中心的な多体特性である。 本稿では,多体系における非古典性の最も基本的な形式,すなわち多体絡み合いとの関係について述べる。 スピンアンサンブルの集団スピンの分散に基づく絡み合いの証人基準を用いて,スピン状理想気体の量子縮退と絡み合いの定量的な関係を確立することを目的とする。 スピン1/2理想ボース気体はそのような絡み合い基準から明らかな絡み合いを持たないことを示す。 反対に、理想的なスピン1/2フェルミ気体は、非常に非局所的なスピン一重項の形成により、量子縮退状態に入るときの集合スピン分散によって明らかにスピンの絡み合いを示す。 自由空間および放物型トラップにおいて,フェルミガスの検出可能なスピン絡み合いの機構をマッピングし,熱的効果とスピン不均衡に対するスピン絡み合いのロバスト性を調べる。 縮退したフェルミ気体中のスピンの絡み合いは、超低温原子の最先端のスピン検出技術を用いて実験的に観察することができる。

Quantum degeneracy is the central many-body feature of ideal quantum gases stemming from quantum mechanics. In this work we address its relationship to the most fundamental form of non-classicality in many-body system, i.e. many-body entanglement. We aim at establishing a quantitative link between quantum degeneracy and entanglement in spinful ideal gases, using entanglement witness criteria based on the variance of the collective spin of the spin ensemble. We show that spin-1/2 ideal Bose gases do not possess entanglement which can be revealed from such entanglement criteria. On the contrary, ideal spin-1/2 Fermi gases exhibit spin entanglement revealed by the collective-spin variances upon entering quantum degeneracy, due to the formation of highly non-local spin singlets. We map out the regime of detectable spin entanglement for Fermi gases in free space as well as in a parabolic trap, and probe the robustness of spin entanglement to thermal effects and spin imbalance. Spin entanglement in degenerate Fermi gases is amenable to experimental observation using state-of-the-art spin detection techniques in ultracold atoms.
翻訳日:2024-01-30 18:38:03 公開日:2024-01-27
# AI信頼度測定のための統計フレームワーク

A Statistical Framework for Measuring AI Reliance ( http://arxiv.org/abs/2401.15356v1 )

ライセンス: Link先を確認
Ziyang Guo, Yifan Wu, Jason Hartline and Jessica Hullman(参考訳) 人間はしばしば人工知能(AI)システムの助けを借りて意思決定をする。 一般的なパターンは、最終決定をコントロールしている人間に対して、AIがアクションを推奨することである。 研究者は、補完的なパフォーマンスを達成する上で重要な要素として、人間がAIに適切に依存していることを確認する。 このような研究で使われる適切な信頼度の定義は、形式的な統計的根拠が欠如しており、矛盾を招く可能性がある。 統計的決定理論に基づき,AIの予測に従う確率として信頼の概念を,人間が信号の識別や状況に関する正確な信念形成に直面する可能性のある課題から分離する形式的信頼の定義を提案する。 私たちの定義は、人間とAIの相補性と信頼に関する研究の設計と解釈を導くのに使用できるフレームワークを生み出します。 近年のaiによる意思決定研究を文献から活用し,信号の正確な区別ができないことによる損失と,誤依存による損失を分離するために,我々のフレームワークがいかに利用できるかを実証する。 本研究では,これらの損失を,行動エージェントと同じ決定課題に直面した有理エージェントが達成した期待利益によって定義される相補的性能の基準とベンチマークと比較することにより評価する。

Humans frequently make decisions with the aid of artificially intelligent (AI) systems. A common pattern is for the AI to recommend an action to the human who retains control over the final decision. Researchers have identified ensuring that a human has appropriate reliance on an AI as a critical component of achieving complementary performance. We argue that the current definition of appropriate reliance used in such research lacks formal statistical grounding and can lead to contradictions. We propose a formal definition of reliance, based on statistical decision theory, which separates the concepts of reliance as the probability the decision-maker follows the AI's prediction from challenges a human may face in differentiating the signals and forming accurate beliefs about the situation. Our definition gives rise to a framework that can be used to guide the design and interpretation of studies on human-AI complementarity and reliance. Using recent AI-advised decision making studies from literature, we demonstrate how our framework can be used to separate the loss due to mis-reliance from the loss due to not accurately differentiating the signals. We evaluate these losses by comparing to a baseline and a benchmark for complementary performance defined by the expected payoff achieved by a rational agent facing the same decision task as the behavioral agents.
翻訳日:2024-01-30 18:37:44 公開日:2024-01-27
# DeepGI:MRIにおける消化管切開の自動化アプローチ

DeepGI: An Automated Approach for Gastrointestinal Tract Segmentation in MRI Scans ( http://arxiv.org/abs/2401.15354v1 )

ライセンス: Link先を確認
Ye Zhang, Yulu Gong, Dongji Cui, Xinrui Li, Xinyu Shen(参考訳) 消化器癌(GI)は、適切な治療結果を得るために正確な放射線治療計画を要求する、世界的な健康問題を引き起こす。 本稿では磁気共鳴画像(MRI)スキャンにおけるGI領域の分割を自動化するための最先端手法を提案する。 高度なディープラーニングアーキテクチャを活用して、提案モデルは初期分類にInception-V4、2.5DデータにVGG19エンコーダにUNet++、グレースケールデータセグメンテーションにEdge UNetを統合する。 革新的な2.5D処理を含む重要なデータ前処理は、適応性、堅牢性、精度を高めるために使用される。 本研究は,現在の放射線治療計画における手作業と時間を要する分節化プロセスに対処し,複雑な解剖学的詳細を捉えた統一モデルを提案する。 セグメンテーションタスクの独特な側面を専門とする多様なアーキテクチャの統合は、新しく包括的なソリューションを意味する。 このモデルは,放射線治療計画のためのGIトラクター画像分割の分野での進歩を示す,臨床医のための効率的かつ正確なツールとして出現する。

Gastrointestinal (GI) tract cancers pose a global health challenge, demanding precise radiotherapy planning for optimal treatment outcomes. This paper introduces a cutting-edge approach to automate the segmentation of GI tract regions in magnetic resonance imaging (MRI) scans. Leveraging advanced deep learning architectures, the proposed model integrates Inception-V4 for initial classification, UNet++ with a VGG19 encoder for 2.5D data, and Edge UNet for grayscale data segmentation. Meticulous data preprocessing, including innovative 2.5D processing, is employed to enhance adaptability, robustness, and accuracy. This work addresses the manual and time-consuming segmentation process in current radiotherapy planning, presenting a unified model that captures intricate anatomical details. The integration of diverse architectures, each specializing in unique aspects of the segmentation task, signifies a novel and comprehensive solution. This model emerges as an efficient and accurate tool for clinicians, marking a significant advancement in the field of GI tract image segmentation for radiotherapy planning.
翻訳日:2024-01-30 18:37:26 公開日:2024-01-27
# ニューラルトピックモデルに関する調査:方法,応用,課題

A Survey on Neural Topic Models: Methods, Applications, and Challenges ( http://arxiv.org/abs/2401.15351v1 )

ライセンス: Link先を確認
Xiaobao Wu, Thong Nguyen, Anh Tuan Luu(参考訳) トピックモデルは何十年にもわたって普及し、潜在トピックを発見し、教師なしの方法で文書のトピックの割合を推測している。 テキスト分析やコンテキストレコメンデーションなど,さまざまなアプリケーションで広く使用されている。 近年、ニューラルネットワークの台頭は、新しい研究分野であるニューラルトピックモデル(NTM)の出現を促している。 従来のトピックモデルとは異なり、NTMはモデル固有の導出を必要としないパラメータを直接最適化する。 これにより、NTMはスケーラビリティと柔軟性が向上し、研究の注目と多くの新しい方法とアプリケーションをもたらす。 本稿では,手法,応用,課題に関するニューラルトピックモデルに関する包括的調査を行う。 具体的には,現在のNTM手法をネットワーク構造に応じて体系的に整理し,短文や言語間文書などの様々なシナリオを対象としたNTMを導入する。 また、NTM上に構築された幅広い人気アプリケーションについても論じる。 最後に,NTMが直面する課題に注目し,今後の研究を刺激する。

Topic models have been prevalent for decades to discover latent topics and infer topic proportions of documents in an unsupervised fashion. They have been widely used in various applications like text analysis and context recommendation. Recently, the rise of neural networks has facilitated the emergence of a new research field -- Neural Topic Models (NTMs). Different from conventional topic models, NTMs directly optimize parameters without requiring model-specific derivations. This endows NTMs with better scalability and flexibility, resulting in significant research attention and plentiful new methods and applications. In this paper, we present a comprehensive survey on neural topic models concerning methods, applications, and challenges. Specifically, we systematically organize current NTM methods according to their network structures and introduce the NTMs for various scenarios like short texts and cross-lingual documents. We also discuss a wide range of popular applications built on NTMs. Finally, we highlight the challenges confronted by NTMs to inspire future research.
翻訳日:2024-01-30 18:37:05 公開日:2024-01-27
# AniDress:ガーメントリグモデルを用いたスパースビューからのアニマタブルルースドレッシングアバター

AniDress: Animatable Loose-Dressed Avatar from Sparse Views Using Garment Rigging Model ( http://arxiv.org/abs/2401.15348v1 )

ライセンス: Link先を確認
Beijia Chen, Yuefan Shen, Qing Shuai, Xiaowei Zhou, Kun Zhou, Youyi Zheng(参考訳) 近年のコミュニティでは、写実的なアニメーション可能なアバターをスリムなマルチビュービデオから作っている。 しかし、現在のワークフローでは、人間のモデリングに裸のボディモデルに大きく依存するので、ゆるやかなキャラクターのためにリアルな衣服のダイナミクスをレンダリングするのに苦労している。 これは主に、ゆるい衣服が生み出す変形が極めて厳密なものであり、そのような変形を捉えた場合、監督の必要がしばしばあるためである。 本稿では,非常にスムーズなマルチビュービデオ (4-8 in our set) を用いて,ゆるい衣服にアニマタブルな人間のアバターを生成する新しい方法であるAniDressを紹介する。 このような状況下で, ゆるい衣服の撮影・外観学習を可能にするために, 物理シミュレーションデータから得られた仮想骨ベース衣料リギングモデルを用いた。 このようなモデルにより、低次元の骨変換によって複雑な衣服のダイナミクスをキャプチャし、描画することができる。 技術的には、スパースマルチビュービデオから時間的コヒーレントな衣服のダイナミクスを推定する新しい手法を開発した。 粗い推定を用いた被着状態の現実的なレンダリングを構築するために、両部位を明示的に制御し、両身体と衣服動作に条件づけされたポーズ駆動変形可能な神経放射場を導入する。 テスト時には、新しい衣服のポーズは、物理ベースまたはニューラルネットワークベースのシミュレーターから派生した、目に見えない状況から捉えられる。 このアプローチを評価するために、さまざまな動きを持つゆるい服装のパフォーマーをキャプチャするマルチビューデータセットを作成する。 実験により,本手法は身体から高度に逸脱する自然な衣服のダイナミックスを表現でき,既存の手法の性能を上回って,目に見えない視点とポーズの両方にうまく一般化できることを示した。 コードとデータは公開される予定だ。

Recent communities have seen significant progress in building photo-realistic animatable avatars from sparse multi-view videos. However, current workflows struggle to render realistic garment dynamics for loose-fitting characters as they predominantly rely on naked body models for human modeling while leaving the garment part un-modeled. This is mainly due to that the deformations yielded by loose garments are highly non-rigid, and capturing such deformations often requires dense views as supervision. In this paper, we introduce AniDress, a novel method for generating animatable human avatars in loose clothes using very sparse multi-view videos (4-8 in our setting). To allow the capturing and appearance learning of loose garments in such a situation, we employ a virtual bone-based garment rigging model obtained from physics-based simulation data. Such a model allows us to capture and render complex garment dynamics through a set of low-dimensional bone transformations. Technically, we develop a novel method for estimating temporal coherent garment dynamics from a sparse multi-view video. To build a realistic rendering for unseen garment status using coarse estimations, a pose-driven deformable neural radiance field conditioned on both body and garment motions is introduced, providing explicit control of both parts. At test time, the new garment poses can be captured from unseen situations, derived from a physics-based or neural network-based simulator to drive unseen garment dynamics. To evaluate our approach, we create a multi-view dataset that captures loose-dressed performers with diverse motions. Experiments show that our method is able to render natural garment dynamics that deviate highly from the body and generalize well to both unseen views and poses, surpassing the performance of existing methods. The code and data will be publicly available.
翻訳日:2024-01-30 18:36:53 公開日:2024-01-27
# 言語モデルの圧縮アルゴリズムに関する包括的調査

A Comprehensive Survey of Compression Algorithms for Language Models ( http://arxiv.org/abs/2401.15347v1 )

ライセンス: Link先を確認
Seungcheol Park, Jaehyeon Choi, Sojin Lee, and U Kang(参考訳) 正確性を犠牲にせずに言語モデルを圧縮できるのか? 言語モデルの圧縮アルゴリズムの数は急速に増加しており、二酸化炭素排出量の増加や高価なメンテナンス費用など、言語モデルの巨大サイズによる副作用のない最近の言語モデルの顕著な進歩の恩恵を受けている。 多くの圧縮アルゴリズムは、言語モデルを圧縮する際、顕著な進歩を見せているが、皮肉なことに、新しいトレンドを捉え、アルゴリズムの過剰な数のために基礎となる概念を特定することは困難になっている。 本稿では,プルーニング,量子化,知識蒸留,低ランク近似,パラメータ共有,効率的なアーキテクチャ設計など,多様な圧縮アルゴリズムを調査し,要約する。 多様な圧縮アルゴリズムの全体的な傾向を要約するだけでなく、代表アルゴリズムを選択し、それらを詳細に分析する。 本稿では,圧縮アルゴリズムの各カテゴリの値と,大規模言語モデルの出現により大きな影響を与える低コスト圧縮アルゴリズムの所望の特性について述べる。 最後に,調査結果に基づく将来的な研究課題を紹介する。

How can we compress language models without sacrificing accuracy? The number of compression algorithms for language models is rapidly growing to benefit from remarkable advances of recent language models without side effects due to the gigantic size of language models, such as increased carbon emissions and expensive maintenance fees. While numerous compression algorithms have shown remarkable progress in compressing language models, it ironically becomes challenging to capture emerging trends and identify the fundamental concepts underlying them due to the excessive number of algorithms. In this paper, we survey and summarize diverse compression algorithms including pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing, and efficient architecture design. We not only summarize the overall trend of diverse compression algorithms but also select representative algorithms and provide in-depth analyses of them. We discuss the value of each category of compression algorithms, and the desired properties of low-cost compression algorithms which have a significant impact due to the emergence of large language models. Finally, we introduce promising future research topics based on our survey results.
翻訳日:2024-01-30 18:36:18 公開日:2024-01-27
# ボース気体中におけるボゴリューボフ運動量対の抑制と非ガウス相関の出現

Suppression of Bogoliubov momentum pairing and emergence of non-Gaussian correlations in ultracold interacting Bose gases ( http://arxiv.org/abs/2401.15340v1 )

ライセンス: Link先を確認
Jan-Philipp Bureik, Ga\'etan Herc\'e, Maxime Allemand, Antoine Tenart, Tommaso Roscilde, David Cl\'ement(参考訳) 相互作用する電子系や相互作用する量子流体のような強い相関の量子物質は、線形なゆらぎや自由準粒子では理解できない性質を持つ。 これらの系の量子ゆらぎは確かに大きく、非ガウス統計(英語版)を総称的に示している。これは高次相関を検査することによってのみ得られる性質であり、その量的再構成は実験と理論の両方に深刻な課題をもたらす。 相関量子物質の主な例は、超流動ヘリウムと最近では超低温原子によって実現される強相互作用のボース流体である。 本研究では, 運動量空間における単原子分解相関を用いて, 弱い状態から強い相互作用状態までのボースガスの相互作用を実験的に研究した。 我々は、相互作用が強くなるにつれて、相互作用の弱い状態の象徴である反対モーメントのモード間のボゴリューボフ対が抑制されることを観察する。 ボゴリューボフ理論の予測からの脱却は、強相関状態の開始を示唆するものであり、我々の系における非線形量子揺らぎの役割を強調する数値シミュレーションによって確認された。 さらに,非ガウシアン相関の直接的シグネチャであるより強い相互作用において,ゼロでない四演算子の累積を示す。 これらの結果は相互作用するボソンのアンサンブルにおける非ガウシアン相関の出現と物理的起源に光を当てた。

Strongly correlated quantum matter -- such as interacting electron systems or interacting quantum fluids -- possesses properties that cannot be understood in terms of linear fluctuations and free quasi-particles. Quantum fluctuations in these systems are indeed large and generically exhibit non-Gaussian statistics -- a property captured only by inspecting high-order correlations, whose quantitative reconstruction poses a formidable challenge to both experiments and theory alike. A prime example of correlated quantum matter is the strongly interacting Bose fluid, realized by superfluid Helium and, more recently, ultra-cold atoms. Here, we experimentally study interacting Bose gases from the weakly to the strongly interacting regime through single-atom-resolved correlations in momentum space. We observe that the Bogoliubov pairing among modes of opposite momenta, emblematic of the weakly interacting regime, is suppressed as interactions become stronger. This departure from the predictions of Bogoliubov theory signals the onset of the strongly correlated regime, as confirmed by numerical simulations that highlight the role of non-linear quantum fluctuations in our system. Additionally, our measurements unveil a non-zero four-operator cumulant at even stronger interactions, which is a direct signature of non-Gaussian correlations. These results shed light on the emergence and physical origin of non-Gaussian correlations in ensembles of interacting bosons.
翻訳日:2024-01-30 18:36:01 公開日:2024-01-27
# DiffuserLite: リアルタイム拡散計画に向けて

DiffuserLite: Towards Real-time Diffusion Planning ( http://arxiv.org/abs/2401.15443v1 )

ライセンス: Link先を確認
Zibin Dong, Jianye Hao, Yifu Yuan, Fei Ni, Yitian Wang, Pengyi Li and Yan Zheng(参考訳) 拡散計画は様々な分野において効果的な意思決定パラダイムとして認識されている。 長距離軌道の高品質条件生成能力は、有望な研究方向となる。 しかし,既存の拡散計画手法では,反復サンプリングコストがかかるため,意思決定頻度が低くなっている。 この問題に対処するために、高速で軽量な拡散計画フレームワークであるDiffuserLiteを紹介します。 DiffuserLiteは計画改善プロセス(PRP)を用いて粗粒度トラジェクトリを生成し、冗長な情報のモデリングを大幅に削減し、意思決定頻度を著しく向上させる。 実験の結果,DiffuserLiteは従来のフレームワークと比較して,ランタイムコストの0.88\%しか発生せず,平均決定周波数が122$Hzに達し,D4RLベンチマークで最先端のパフォーマンスを達成した。 さらに、我々のクリーンなDiffuserLiteフレームワークは、他の拡散計画アルゴリズムにおける決定頻度を高めるフレキシブルなプラグインとして機能し、将来の作業のための構造設計リファレンスを提供する。 詳細と可視化はプロジェクトのwebサイト(https://diffuserlite.github.io/)で確認できる。

Diffusion planning has been recognized as an effective decision-making paradigm in various domains. The high-quality conditional generation capability of long-horizon trajectories makes it a promising research direction. However, existing diffusion planning methods suffer from low decision-making frequencies because of the expensive iterative sampling cost. To address this issue, we introduce DiffuserLite, a fast and lightweight diffusion planning framework. DiffuserLite employs a planning refinement process (PRP) to generate coarse-to-fine-grained trajectories, which significantly reduces the modeling of redundant information and leads to notable increases in decision-making frequency. Our experimental results demonstrate that DiffuserLite incurs only $0.88\%$ of the runtime cost compared to previous frameworks, achieves an average decision-making frequency of $122$Hz, and reaches state-of-the-art performance on D4RL benchmarks. In addition, our clean DiffuserLite framework can serve as a flexible plugin to enhance decision frequency in other diffusion planning algorithms, providing a structural design reference for future works. More details and visualizations are available at [project website](https://diffuserlite.github.io/).
翻訳日:2024-01-30 18:29:34 公開日:2024-01-27
# パラメトリック量子回路の非パラメトリックグリード最適化

Non-parametric Greedy Optimization of Parametric Quantum Circuits ( http://arxiv.org/abs/2401.15442v1 )

ライセンス: Link先を確認
Koustubh Phalak, Swaroop Ghosh(参考訳) 古典的ニューラルネットワークに類似した量子ニューラルネットワーク(qnn)の利用は、量子機械学習(qml)の分野への関心が高まっているため、過去10年間で大幅に増加している。 QNNは3つの主要コンポーネントから構成される。 (i)データロード/エンコード回路 (ii)パラメトリック量子回路(pqc)及び (iii)測定操作。 理想的な状況下では、QNNのPQCはよく訓練されるが、異なる種類のノイズが存在するため、量子ハードウェアの下でのトレーニングはそうではないかもしれない。 深度の高いより深いQNNは、浅いネットワークに比べて性能が低下する傾向にある。 この研究は、パラメトリックゲートを近似固定非パラメトリック表現に置き換えることで、pqcの深さとゲート数を減らすことを目的としている。 そこで本手法では,元のパラメトリックゲートのユニタリ変換行列と新しい非パラメトリックゲートセットに基づいて距離距離を最小化する。 この厳密な最適化と幾度かの再訓練の結果,約14%の深さ減少と48%のゲート数減少を,推論精度の3.33%のコストで観測した。 同様の結果は、異なるデータセットと異なるPQC構造に対して観測される。

The use of Quantum Neural Networks (QNN) that are analogous to classical neural networks, has greatly increased in the past decade owing to the growing interest in the field of Quantum Machine Learning (QML). A QNN consists of three major components: (i) data loading/encoding circuit, (ii) Parametric Quantum Circuit (PQC), and (iii) measurement operations. Under ideal circumstances the PQC of the QNN trains well, however that may not be the case for training under quantum hardware due to presence of different kinds of noise. Deeper QNNs with high depths tend to degrade more in terms of performance compared to shallower networks. This work aims to reduce depth and gate count of PQCs by replacing parametric gates with their approximate fixed non-parametric representations. We propose a greedy algorithm to achieve this such that the algorithm minimizes a distance metric based on unitary transformation matrix of original parametric gate and new set of non-parametric gates. From this greedy optimization followed by a few epochs of re-training, we observe roughly 14% reduction in depth and 48% reduction in gate count at the cost of 3.33% reduction in inferencing accuracy. Similar results are observed for a different dataset as well with different PQC structure.
翻訳日:2024-01-30 18:29:14 公開日:2024-01-27
# 知識ベース完成モデルの事前学習と診断

Pre-training and Diagnosing Knowledge Base Completion Models ( http://arxiv.org/abs/2401.15439v1 )

ライセンス: Link先を確認
Vid Kocijan, Myeongjun Erik Jang, Thomas Lukasiewicz(参考訳) 本研究では,ある事実の集合から別の事実への知識伝達へのアプローチを,エンティティや関係マッチングを必要とせずに導入し,分析する。 この方法は、正準化された知識ベースと、非カノニカル化またはオープンな知識ベース、すなわち、実世界の実体または関係の複数のコピーが存在する知識ベースの両方に作用する。 主な貢献は、非構造化テキストから収集された事実を大規模に事前学習して、特定のドメインから構造化データの予測を改善する方法である。 この手法はReVerb20kのような小さなデータセットに最も影響を与え、Bertのような大規模な事前学習モデルに依存しないにもかかわらず、平均相互ランクの6%の絶対的な増加と平均ランクの65%の相対的な減少が達成された。 得られた事前学習モデルをよりよく理解するために,オープン知識ベース補完のための事前学習モデル分析のための新しいデータセット,doge (diagnostics of open knowledge graph embeddeds) を導入する。 6つの部分集合で構成され、事前訓練されたモデルの複数の特性を測定するように設計されている:同義語に対する堅牢性、推論の実行能力、性的なステレオタイプの存在、逆関係との一貫性、一般的な知識の異なる領域をカバーする。 導入したデータセットを用いて,既存のOKBCモデルは同義語や逆関係の存在下で整合性が欠如しており,帰納的推論を行うことができないことを示す。 さらに、それらの予測はしばしば性ステレオタイプと一致し、反証を提示しても持続する。 さらに,事前学習した単語埋め込みの役割について検討し,OKBCモデルのバイアス行動を防止するには,単語埋め込みの回避が不十分であることを示す。

In this work, we introduce and analyze an approach to knowledge transfer from one collection of facts to another without the need for entity or relation matching. The method works for both canonicalized knowledge bases and uncanonicalized or open knowledge bases, i.e., knowledge bases where more than one copy of a real-world entity or relation may exist. The main contribution is a method that can make use of large-scale pre-training on facts, which were collected from unstructured text, to improve predictions on structured data from a specific domain. The introduced method is most impactful on small datasets such as ReVerb20k, where a 6% absolute increase of mean reciprocal rank and 65% relative decrease of mean rank over the previously best method was achieved, despite not relying on large pre-trained models like Bert. To understand the obtained pre-trained models better, we then introduce a novel dataset for the analysis of pre-trained models for Open Knowledge Base Completion, called Doge (Diagnostics of Open knowledge Graph Embeddings). It consists of 6 subsets and is designed to measure multiple properties of a pre-trained model: robustness against synonyms, ability to perform deductive reasoning, presence of gender stereotypes, consistency with reverse relations, and coverage of different areas of general knowledge. Using the introduced dataset, we show that the existing OKBC models lack consistency in the presence of synonyms and inverse relations and are unable to perform deductive reasoning. Moreover, their predictions often align with gender stereotypes, which persist even when presented with counterevidence. We additionally investigate the role of pre-trained word embeddings and demonstrate that avoiding biased word embeddings is not a sufficient measure to prevent biased behavior of OKBC models.
翻訳日:2024-01-30 18:28:52 公開日:2024-01-27
# マルチパラメトリックmriを用いた脳腫瘍セグメンテーションのための分散ゴシップ相互学習(gml)

Decentralized Gossip Mutual Learning (GML) for brain tumor segmentation on multi-parametric MRI ( http://arxiv.org/abs/2401.15434v1 )

ライセンス: Link先を確認
Jingyun Chen, Yading Yuan(参考訳) Federated Learning (FL) は、プライベートデータを共有せずに、医療センター間で協調的なモデルトレーニングを可能にする。 しかし、従来のFLは、集中型モデルアグリゲーションの性質により、サーバ障害やローカルデータのサブ最適性能にリスクを及ぼす。 そこで本稿では,ピアツーピア通信にgossipプロトコルを用いた分散フレームワークであるgossip mutual learning (gml)を提案する。 さらに、GMLは各サイトに対して、異なるサイト間でのデータバリエーションを考慮するために、相互学習を通じてローカルモデルを最適化することを推奨する。 BraTS 2021データセットの4つの臨床部位から146症例を用いた腫瘍分節化作業において,GMLは局所モデルより優れ,FedAvgと同等の性能を示し,通信オーバーヘッドは25%に過ぎなかった。

Federated Learning (FL) enables collaborative model training among medical centers without sharing private data. However, traditional FL risks on server failures and suboptimal performance on local data due to the nature of centralized model aggregation. To address these issues, we present Gossip Mutual Learning (GML), a decentralized framework that uses Gossip Protocol for direct peer-to-peer communication. In addition, GML encourages each site to optimize its local model through mutual learning to account for data variations among different sites. For the task of tumor segmentation using 146 cases from four clinical sites in BraTS 2021 dataset, we demonstrated GML outperformed local models and achieved similar performance as FedAvg with only 25% communication overhead.
翻訳日:2024-01-30 18:28:23 公開日:2024-01-27
# 三角ネットワークにおける真の量子非局所性の実験

Experimental genuine quantum nonlocality in the triangle network ( http://arxiv.org/abs/2401.15428v1 )

ライセンス: Link先を確認
Ning-Ning Wang, Chao Zhang, Huan Cao, Kai Xu, Bi-Heng Liu, Yun-Feng Huang, Chuan-Feng Li, Guang-Can Guo, Nicolas Gisin, Tam\'as Kriv\'achy, Marc-Olivier Renou(参考訳) この10年間で、いくつかの独立した絡み合いの源を含む量子ネットワークが、絡み合いの測定を行う際に、完全に新しい非古典的量子相関の形式を許すことが理解された。 本研究では,三角形ネットワーク構造における量子相関を実験的に求め,その非局所性の確証を与える。 具体的には,まず6光子実験を行い,(エントロピー21,325)で提案するエレガント分布を求める。 そして、その非局所性を機械学習ツールに基づいて正当化し、局所集合との実験的に得られた相関距離を推定し、三角ネットワーク用に調整された予想の不等式族を破る。

In the last decade, it was understood that quantum networks involving several independent sources of entanglement which are distributed and measured by several parties allowed for completely novel forms of nonclassical quantum correlations, when entangled measurements are performed. Here, we experimentally obtain quantum correlations in a triangle network structure, and provide solid evidence of its nonlocality. Specifically, we first obtain the elegant distribution proposed in (Entropy 21, 325) by performing a six-photon experiment. Then, we justify its nonlocality based on machine learning tools to estimate the distance of the experimentally obtained correlation to the local set, and through the violation of a family of conjectured inequalities tailored for the triangle network.
翻訳日:2024-01-30 18:28:08 公開日:2024-01-27
# 大規模モデル時代のデータ拡張に関する調査

A Survey on Data Augmentation in Large Model Era ( http://arxiv.org/abs/2401.15422v1 )

ライセンス: Link先を確認
Yue Zhou, Chenlu Guo, Xu Wang, Yi Chang, and Yuan Wu(参考訳) 大きな言語と拡散モデルを含む大きなモデルは、人間のレベルの知性を近似する上で非常に有望であり、学術分野と産業分野の両方から大きな関心を集めている。 しかし、これらの大規模モデルのトレーニングは大量の高品質なデータを必要とし、これらのモデルへの継続的な更新により、既存の高品質なデータの貯蓄はすぐに枯渇する可能性がある。 この課題は、データ拡張手法に焦点をあてた研究の急増を引き起こした。 大規模モデルを活用することで、これらのデータ拡張技術は従来のアプローチを上回っている。 本稿では,大規模モデル駆動型データ拡張手法について,包括的視点で概観する。 まず,関連研究の分類を,画像強調,テキスト増補,ペア化データ増補の3つのカテゴリに分類することから始める。 続いて,大規模モデルに基づくデータ拡張に関連する各種データ後処理手法について検討した。 この議論は、自然言語処理、コンピュータビジョン、音声信号処理におけるこれらのデータ拡張手法のアプリケーション群を包含する範囲に拡大する。 さまざまなシナリオにわたる大規模モデルベースのデータ拡張の成功と限界を評価する。 レビューをまとめると、データ拡張分野における将来の探索に向けた今後の課題と道筋を強調する。 我々の目標は、研究者に重要な洞察を与え、最終的にはより洗練された大型モデルの進歩に寄与することである。 https://github.com/MLGroup-JLU/LLM-data-aug-survey。

Large models, encompassing large language and diffusion models, have shown exceptional promise in approximating human-level intelligence, garnering significant interest from both academic and industrial spheres. However, the training of these large models necessitates vast quantities of high-quality data, and with continuous updates to these models, the existing reservoir of high-quality data may soon be depleted. This challenge has catalyzed a surge in research focused on data augmentation methods. Leveraging large models, these data augmentation techniques have outperformed traditional approaches. This paper offers an exhaustive review of large model-driven data augmentation methods, adopting a comprehensive perspective. We begin by establishing a classification of relevant studies into three main categories: image augmentation, text augmentation, and paired data augmentation. Following this, we delve into various data post-processing techniques pertinent to large model-based data augmentation. Our discussion then expands to encompass the array of applications for these data augmentation methods within natural language processing, computer vision, and audio signal processing. We proceed to evaluate the successes and limitations of large model-based data augmentation across different scenarios. Concluding our review, we highlight prospective challenges and avenues for future exploration in the field of data augmentation. Our objective is to furnish researchers with critical insights, ultimately contributing to the advancement of more sophisticated large models. We consistently maintain the related open-source materials at: https://github.com/MLGroup-JLU/LLM-data-aug-survey.
翻訳日:2024-01-30 18:27:55 公開日:2024-01-27
# 機械学習と信号処理による誘導電動機の故障診断

Fault Diagnosis on Induction Motor using Machine Learning and Signal Processing ( http://arxiv.org/abs/2401.15417v1 )

ライセンス: Link先を確認
Muhammad Samiullah, Hasan Ali, Shehryar Zahoor and Anas Ali(参考訳) 機械学習と信号処理による誘導電動機故障の検出と同定は、産業4.0の文脈で植物の乱れや停止を避けるための貴重なアプローチである。 本研究では,MATLAB Simulinkを用いた機械学習と信号処理による誘導電動機故障の検出と同定について述べる。 そこで我々は,MATLAB Simulinkで3相誘導電動機のモデルを構築し,健康かつ不良なモータデータを生成する。 収集されたデータは、固定子電流、ローター電流、入力電力、スリップ、ローター速度、効率などであった。 誘導電動機には, 開回路障害, 短絡障害, 過負荷, ロータバーの破損の4つの障害が発生した。 健康データと故障したモータデータの60~40%の比率で合計15万のデータポイントを収集した。 高速フーリエ変換 (fft) を適用し, 健康状態および不健康状態の検出と同定を行い, 特徴を付加した。 生成されたデータセットは、異なる機械学習モデルでトレーニングされた。 テストセットにおけるモデルの精度を比較することで,決定木アルゴリズムの精度が約92%で最高の結果を得た。 本研究は,産業用機械学習モデルを用いた断層検出と分類に有用なアプローチを提供することにより,文献に寄与する。

The detection and identification of induction motor faults using machine learning and signal processing is a valuable approach to avoiding plant disturbances and shutdowns in the context of Industry 4.0. In this work, we present a study on the detection and identification of induction motor faults using machine learning and signal processing with MATLAB Simulink. We developed a model of a three-phase induction motor in MATLAB Simulink to generate healthy and faulty motor data. The data collected included stator currents, rotor currents, input power, slip, rotor speed, and efficiency. We generated four faults in the induction motor: open circuit fault, short circuit fault, overload, and broken rotor bars. We collected a total of 150,000 data points with a 60-40% ratio of healthy to faulty motor data. We applied Fast Fourier Transform (FFT) to detect and identify healthy and unhealthy conditions and added a distinctive feature in our data. The generated dataset was trained different machine learning models. On comparing the accuracy of the models on the test set, we concluded that the Decision Tree algorithm performed the best with an accuracy of about 92%. Our study contributes to the literature by providing a valuable approach to fault detection and classification with machine learning models for industrial applications.
翻訳日:2024-01-30 18:27:32 公開日:2024-01-27
# 表現とスタイルによって駆動される暗黙の物理顔モデル

An Implicit Physical Face Model Driven by Expression and Style ( http://arxiv.org/abs/2401.15414v1 )

ライセンス: Link先を確認
Lingchen Yang, Gaspard Zoss, Prashanth Chandran, Paulo Gotardo, Markus Gross, Barbara Solenthaler, Eftychios Sifakis, Derek Bradley(参考訳) 3d顔アニメーションは、伝統的に表現制御によってパラメータ化された顔変形モデル(またはリグ)を操作することで作られる。 通常見過ごされるキーコンポーネントは、特定の式がどのように実行されるかのような「スタイル」の表現である。 文字が実行できる表現の意味的基盤を定義するのが一般的であるが、ほとんどの文字はそれぞれのスタイルで表現を行う。 現在まで、スタイルは表現と絡み合っており、顔のアニメーションを考えると、あるキャラクタのスタイルを別のキャラクタに移すことは不可能である。 本研究では,データ駆動型暗黙的神経物理モデルに基づく新しい顔モデルを提案する。 そこで本研究では,複数の被験者に対して暗黙の物理学に基づくアクティベーションを同時に学習するためのフレームワークを提案する。 トレーニングを済ませると、トレーニングされたすべてのアイデンティティに対して、物理ベースの顔アニメーションを一般化し、目に見えないパフォーマンスに拡張する。 さらにアニメーションスタイルをコントロールでき、ある文字から別の文字へスタイルを転送したり、異なる文字のスタイルをブレンドしたりすることができる。 最後に, 物理モデルとして, 衝突処理などの物理効果を合成し, 従来の手法とは切り離すことができる。

3D facial animation is often produced by manipulating facial deformation models (or rigs), that are traditionally parameterized by expression controls. A key component that is usually overlooked is expression 'style', as in, how a particular expression is performed. Although it is common to define a semantic basis of expressions that characters can perform, most characters perform each expression in their own style. To date, style is usually entangled with the expression, and it is not possible to transfer the style of one character to another when considering facial animation. We present a new face model, based on a data-driven implicit neural physics model, that can be driven by both expression and style separately. At the core, we present a framework for learning implicit physics-based actuations for multiple subjects simultaneously, trained on a few arbitrary performance capture sequences from a small set of identities. Once trained, our method allows generalized physics-based facial animation for any of the trained identities, extending to unseen performances. Furthermore, it grants control over the animation style, enabling style transfer from one character to another or blending styles of different characters. Lastly, as a physics-based model, it is capable of synthesizing physical effects, such as collision handling, setting our method apart from conventional approaches.
翻訳日:2024-01-30 18:27:11 公開日:2024-01-27
# 量子電磁場における相対論的単一電子波束:量子コヒーレンス、相関、unruh効果

Relativistic single-electron wavepacket in quantum electromagnetic fields: Quantum coherence, correlations, and the Unruh effect ( http://arxiv.org/abs/2401.15404v1 )

ライセンス: Link先を確認
Shih-Yuin Lin and B. L. Hu(参考訳) 50年代以降のQEDの定式化は、定常状態や散乱問題に対して非常にうまく機能するが、非平衡状態における粒子のリアルタイム進化が要求される80年代以降の新たな課題により、その量子環境と相互作用する系におけるコヒーレンス、散逸、相関、絡み合いなどの量子的特徴が求められ、これらの目的に適したQEDを定式化する新しい方法が求められている。 本稿では、量子電磁場に結合した荷電相対論的粒子のガウス波束記述を用いて、自由空間における単一電子と量子場の相互作用をシュウィンガー極限よりかなり低いスケールで研究する線形化有効理論を提案する。 有効理論におけるレギュレータの適切な値は、個々の実験のデータから決定され、単一の電子が加速された場合、実験フレームに時間依存する。 この新しい理論ツールを用いて、自由空間における飛行電子の非一貫性の問題と、電子に対するunruh効果について論じる。 その結果,真空揺らぎは電子顕微鏡の干渉パターンをぼかす主要な原因である可能性が示唆された。 一様電場で加速される1つの電子に対して、電子の古典軌道からの偏差の2点相関子におけるアンルー効果を同定する。 我々の計算から、ボソニックとフェルミオンのスペクトル関数を含む微妙な性質ももたらした。

Conventional formulation of QED since the 50s works very well for stationary states and for scattering problems, but with newly arisen challenges from the 80s on, where real time evolution of particles in a nonequilibrium setting are required, and quantum features such as coherence, dissipation, correlation and entanglement in a system interacting with its quantum field environment are sought after, new ways to formulate QED suitable for these purposes beckon. In this paper we present a linearized effective theory using a Gaussian wavepacket description of a charged relativistic particle coupled to quantum electromagnetic fields to study the interplay between single electrons and quantum fields in free space, at a scale well below the Schwinger limit. The proper values of the regulators in our effective theory are determined from the data of individual experiments, and will be time-dependent in the laboratory frame if the single electrons are accelerated. Using this new theoretical tool, we address the issues of decoherence of flying electrons in free space and the impact of Unruh effect on the electrons. Our result suggests that vacuum fluctuations may be a major source of blurring the interference pattern in electron microscopes. For a single electron accelerated in a uniform electric field, we identify the Unruh effect in the two-point correlators of the deviations from the electron's classical trajectory. From our calculations we also bring out some subtleties, involving the bosonic versus fermionic spectral functions.
翻訳日:2024-01-30 18:26:49 公開日:2024-01-27
# 大きく負の有効範囲を持つ3つのボソンの普遍性:アスペクトと加算

Universality for Three Bosons with Large, Negative Effective Range: Aspects and Addenda ( http://arxiv.org/abs/2401.15402v1 )

ライセンス: Link先を確認
Harald W. Griesshammer (George Washington U.)(参考訳) Resummed-Range Effective Field Theory は、大きな2体散乱長 $a$ と有効範囲 $r_0$ を持つ系の点相互作用の一貫性のない非相対論的有効場理論である。 主順序は非摂動的であり、その可観測性は次元のない比 $\xi:=2r_0/a$ にのみ依存する。 このプレゼンテーションは、3つの同一スピンレスボソンの側面を強調し、以前の議論に詳細を追加する[1]。 序列では3体相互作用は不要である。 基底状態は$0.366\ldots\ge\xi\ge-8.72\ldots$ の範囲にのみ存在し、励起状態は自己相似性と離散的スケール不変性を示し、非零の $r_0$ に対する修正は小さい。

Resummed-Range Effective Field Theory is the consistent non-relativistic Effective Field Theory of point interactions in systems with large two-body scattering length $a$ and an effective range $r_0$ large in magnitude but negative. Its leading order is non-perturbative, and its observables depend only on the dimensionless ratio $\xi:=2r_0/a$ once $|r_0|$ is chosen as base unit. This presentation highlights aspects for three identical spinless bosons and adds details to a previous discussion [1]. At leading order, no three-body interaction is needed. A ground state exists only in the range $0.366\ldots\ge\xi\ge-8.72\ldots$, and excited states display self-similarity and Discrete Scale Invariance, with small corrections for nonzero $r_0$.
翻訳日:2024-01-30 18:26:19 公開日:2024-01-27
# PTポンアップによるポルトガルのNLP資源の索引付け

Indexing Portuguese NLP Resources with PT-Pump-Up ( http://arxiv.org/abs/2401.15400v1 )

ライセンス: Link先を確認
R\'uben Almeida, Ricardo Campos, Al\'ipio Jorge, S\'ergio Nunes(参考訳) 自然言語処理(NLP)の最近の進歩は、大量のコーパスを必要とする訓練プロセスと結びついている。 このデータへのアクセスは、リソース分散とこれらインフラストラクチャのオンラインおよび最新性を維持する必要性のため、一般的には簡単なプロセスではありません。 NLPの新しい開発は、データの不足や、コミュニティへのエントリポイントとして機能する共有リポジトリの欠如によって、しばしば妥協される。 これは特に、データや適切なリソース管理インフラを持たないポルトガルなど、低リソース言語や中リソース言語において当てはまる。 本研究では,資源分散の低減と,ポルトガルのNLPリソースへのアクセシビリティ向上を目的としたPT-Pump-Upを提案する。 私たちの提案は4つのソフトウェアコンポーネントに分割されています。 a) 利用可能な資源をリストアップするWebプラットフォーム b) ポルトガルのNLPリソースのロードを簡略化するクライアント側Pythonパッケージ。 c) プラットフォームを管理するための管理Pythonパッケージ、および d) 今後のコラボレーションとコントリビューションを促進するための公開githubリポジトリ。 4つのコンポーネントはすべて、https://linktr.ee/pt_pump_upを使ってアクセスできます。

The recent advances in natural language processing (NLP) are linked to training processes that require vast amounts of corpora. Access to this data is commonly not a trivial process due to resource dispersion and the need to maintain these infrastructures online and up-to-date. New developments in NLP are often compromised due to the scarcity of data or lack of a shared repository that works as an entry point to the community. This is especially true in low and mid-resource languages, such as Portuguese, which lack data and proper resource management infrastructures. In this work, we propose PT-Pump-Up, a set of tools that aim to reduce resource dispersion and improve the accessibility to Portuguese NLP resources. Our proposal is divided into four software components: a) a web platform to list the available resources; b) a client-side Python package to simplify the loading of Portuguese NLP resources; c) an administrative Python package to manage the platform and d) a public GitHub repository to foster future collaboration and contributions. All four components are accessible using: https://linktr.ee/pt_pump_up
翻訳日:2024-01-30 18:26:00 公開日:2024-01-27
# 変圧器モデルにおける多語表現のセマンティクス:調査

Semantics of Multiword Expressions in Transformer-Based Models: A Survey ( http://arxiv.org/abs/2401.15393v1 )

ライセンス: Link先を確認
Filip Mileti\'c, Sabine Schulte im Walde(参考訳) MWE(Multiword Expression)は複数の単語からなり、構成度の変動を示す。 したがって、それらの意味をモデル化することは非常に困難であり、この問題がトランスフォーマーアーキテクチャにどの程度影響するかは不明である。 このギャップに対処するため,変換器モデルを用いたMWE処理の詳細な調査を行った。 その結果,MWEのセマンティクスは表面パターンや記憶情報に依存して不整合であることがわかった。 MWEの意味は、主にアーキテクチャの初期層に強く局所化されている。 表現は、意味的慣用性や対象表現のあいまいさなど、特定の言語特性の恩恵を受ける。 以上より,トランスフォーマーモデルが細粒度のセマンティクスをロバストに捉える能力に疑問を呈する。 さらに,より直接的に比較可能な評価設定の必要性を強調する。

Multiword expressions (MWEs) are composed of multiple words and exhibit variable degrees of compositionality. As such, their meanings are notoriously difficult to model, and it is unclear to what extent this issue affects transformer architectures. Addressing this gap, we provide the first in-depth survey of MWE processing with transformer models. We overall find that they capture MWE semantics inconsistently, as shown by reliance on surface patterns and memorized information. MWE meaning is also strongly localized, predominantly in early layers of the architecture. Representations benefit from specific linguistic properties, such as lower semantic idiosyncrasy and ambiguity of target expressions. Our findings overall question the ability of transformer models to robustly capture fine-grained semantics. Furthermore, we highlight the need for more directly comparable evaluation setups.
翻訳日:2024-01-30 18:25:44 公開日:2024-01-27
# MultiHop-RAG:マルチホップクエリのベンチマーク検索拡張生成

MultiHop-RAG: Benchmarking Retrieval-Augmented Generation for Multi-Hop Queries ( http://arxiv.org/abs/2401.15391v1 )

ライセンス: Link先を確認
Yixuan Tang and Yi Yang(参考訳) Retrieval-augmented Generation (RAG)は、LLMの幻覚を緩和し、応答品質を向上する有望な可能性を示し、LLMの実践的な採用を促進することで、大きな言語モデル(LLM)を増強する。 しかし、既存のRAGシステムはマルチホップクエリに答えるには不十分であり、複数の証拠を検索し、推論する必要がある。 さらに、我々の知る限り、既存のRAGベンチマークデータセットはマルチホップクエリにフォーカスしていません。 本稿では,知識ベース,マルチホップクエリの集合,基礎的回答,それに付随する支持証拠からなる新しいデータセットであるMultiHop-RAGを開発する。 本稿では,英語ニュース記事データセットを基礎となるrag知識ベースとして活用し,データセット構築の手順を詳述する。 我々は,MultiHop-RAGのベンチマークユーティリティを2つの実験で実証した。 最初の実験では、マルチホップクエリのエビデンスを取得するために異なる埋め込みモデルを比較した。 第2の実験では, GPT-4, PaLM, および Llama2-70B を含む様々な最先端の LLM の, 証明されたマルチホップクエリの推論および応答能力について検討した。 どちらの実験でも、既存のRAGメソッドはマルチホップクエリの検索と応答に不満足に機能することがわかった。 我々は,MultiHop-RAGが効果的なRAGシステムの開発において,コミュニティにとって貴重な資源になることを願っている。 MultiHop-RAGと実装されたRAGシステムはhttps://github.com/yixuantt/MultiHop-RAG/で公開されている。

Retrieval-augmented generation (RAG) augments large language models (LLM) by retrieving relevant knowledge, showing promising potential in mitigating LLM hallucinations and enhancing response quality, thereby facilitating the great adoption of LLMs in practice. However, we find that existing RAG systems are inadequate in answering multi-hop queries, which require retrieving and reasoning over multiple pieces of supporting evidence. Furthermore, to our knowledge, no existing RAG benchmarking dataset focuses on multi-hop queries. In this paper, we develop a novel dataset, MultiHop-RAG, which consists of a knowledge base, a large collection of multi-hop queries, their ground-truth answers, and the associated supporting evidence. We detail the procedure of building the dataset, utilizing an English news article dataset as the underlying RAG knowledge base. We demonstrate the benchmarking utility of MultiHop-RAG in two experiments. The first experiment compares different embedding models for retrieving evidence for multi-hop queries. In the second experiment, we examine the capabilities of various state-of-the-art LLMs, including GPT-4, PaLM, and Llama2-70B, in reasoning and answering multi-hop queries given the evidence. Both experiments reveal that existing RAG methods perform unsatisfactorily in retrieving and answering multi-hop queries. We hope MultiHop-RAG will be a valuable resource for the community in developing effective RAG systems, thereby facilitating greater adoption of LLMs in practice. The MultiHop-RAG and implemented RAG system is publicly available at https://github.com/yixuantt/MultiHop-RAG/.
翻訳日:2024-01-30 18:25:32 公開日:2024-01-27
# リアルタイムIoTデータ処理のためのマイクロサービスアーキテクチャ:スマートポートのための再利用可能なWeb

A microservice architecture for real-time IoT data processing: A reusable Web of things approach for smart ports ( http://arxiv.org/abs/2401.15390v1 )

ライセンス: Link先を確認
Guadalupe Ortiz, Juan Boubeta-Puig, Javier Criado, David Corral-Plaza, Alfonso Garcia-de-Prado, Inmaculada Medina-Bulo, Luis Iribarne(参考訳) 電気通信とモノのインターネットにおける大きな進歩は、スマートサービスが提供される多くのスマートシティシナリオを生み出した。 かつて未来への夢だったものが現実になった。 しかし、これらのスマートサービスを迅速かつ効率的に、相互運用可能な方法で、そしてリアルタイムで提供する必要性は、最先端の技術課題である。 一部のソフトウェアアーキテクチャはこの領域でソリューションを提供しているが、これらは独立したモジュールによる再利用性とメンテナンスの点で制限されることが多く、メンテナンスや進化の際のシステムダウンタイムの必要性や、インターフェースの相互運用性に関する標準が欠如している。 本稿では,web of thingsパラダイムを用いて標準化され,複雑なイベント処理技術によるリアルタイムデータ処理において高効率な,完全に再利用可能なマイクロサービスアーキテクチャを提案する。 この提案を説明するために,我々は,スマートポートにおける空気品質監視と警告の分野におけるアーキテクチャの展開に必要なマイクロサービスの完全再利用可能な実装を提案する。 このアーキテクチャの性能評価は優れた結果を示す。

Major advances in telecommunications and the Internet of Things have given rise to numerous smart city scenarios in which smart services are provided. What was once a dream for the future has now become reality. However, the need to provide these smart services quickly, efficiently, in an interoperable manner and in real time is a cutting-edge technological challenge. Although some software architectures offer solutions in this area, these are often limited in terms of reusability and maintenance by independent modules, involving the need for system downtime when maintaining or evolving, as well as by a lack of standards in terms of the interoperability of their interface. In this paper, we propose a fully reusable microservice architecture, standardized through the use of the Web of things paradigm, and with high efficiency in real-time data processing, supported by complex event processing techniques. To illustrate the proposal, we present a fully reusable implementation of the microservices necessary for the deployment of the architecture in the field of air quality monitoring and alerting in smart ports. The performance evaluation of this architecture shows excellent results.
翻訳日:2024-01-30 18:24:48 公開日:2024-01-27
# 文脈付き音声からのイベント抽出に向けて

Towards Event Extraction from Speech with Contextual Clues ( http://arxiv.org/abs/2401.15385v1 )

ライセンス: Link先を確認
Jingqi Kang, Tongtong Wu, Jinming Zhao, Guitao Wang, Guilin Qi, Yuan-Fang Li, Gholamreza Haffari(参考訳) テキストベースのイベント抽出は活発な研究分野であり、多くの領域で応用されているが、音声から直接意味的イベントを抽出することは未検討の問題である。 本稿では,音声イベント抽出(SpeechEE)タスクを導入し,3つの合成トレーニングセットと1つの人為的テストセットを構築する。 テキストからのイベント抽出と比較して、発話者は、連続的で単語境界を持たない複雑な音声信号によって、大きな課題を生じる。 さらに、知覚可能なサウンドイベントとは異なり、セマンティックイベントはより微妙であり、深い理解を必要とする。 これらの課題に対処するために,音声信号からエンドツーエンドでイベントを生成できるシーケンス・ツー・ストラクチャー生成パラダイムと,音声認識書き起こしを文脈手がかりとして利用する条件付き生成手法を提案する。 さらに,イベントをフラットな形式で表現し,出力を自然言語に近いものにすることを提案する。 実験の結果,本手法は全データセットに大幅な改善をもたらし,最大10.7%のF1ゲインを達成した。 コードとデータセットはhttps://github.com/jodie-kang/speecheeでリリースされている。

While text-based event extraction has been an active research area and has seen successful application in many domains, extracting semantic events from speech directly is an under-explored problem. In this paper, we introduce the Speech Event Extraction (SpeechEE) task and construct three synthetic training sets and one human-spoken test set. Compared to event extraction from text, SpeechEE poses greater challenges mainly due to complex speech signals that are continuous and have no word boundaries. Additionally, unlike perceptible sound events, semantic events are more subtle and require a deeper understanding. To tackle these challenges, we introduce a sequence-to-structure generation paradigm that can produce events from speech signals in an end-to-end manner, together with a conditioned generation method that utilizes speech recognition transcripts as the contextual clue. We further propose to represent events with a flat format to make outputs more natural language-like. Our experimental results show that our method brings significant improvements on all datasets, achieving a maximum F1 gain of 10.7%. The code and datasets are released on https://github.com/jodie-kang/SpeechEE.
翻訳日:2024-01-30 18:24:17 公開日:2024-01-27
# バイチュアン2-sum:対話要約のための指導細かなバイチュアン2-7bモデル

Baichuan2-Sum: Instruction Finetune Baichuan2-7B Model for Dialogue Summarization ( http://arxiv.org/abs/2401.15496v1 )

ライセンス: Link先を確認
Jianfei Xiao, Yancan Chen, Yimin Ou, Hanyi Yu, Yiyong Xiao(参考訳) Llama、Baichuan、Bloomモデルのような大規模言語モデル(LLM)は、多くの自然言語タスクにおいて命令を微調整する優れた能力を示している。 それでも、対話における異なる役割の要約を意図した対話要約タスクでは、最先端の手法のほとんどは小さなモデル(例えばバートやバート)で実行される。 既存の方法は、グローバルな局所集中度スコアをモデルに追加するなど、小さなモデルにタスク指定の最適化を追加しようとする。 本稿では,役割指向のダイアグルージュ要約のための命令微調整モデルBaichuan2-Sumを提案する。 異なる役割に対して異なる指示を設定することで、モデルは対話対話から学び、期待される要約を出力することができる。 さらに, NEFTune 法を用いてトレーニング中に適切な雑音を付加し, 結果を改善する。 実験により,提案モデルがCSDSとSAMSUMの2つの公開対話要約データセットに対して,新たな最先端結果が得られることを示した。 我々は,対話要約タスクの今後の研究を容易にするため,モデルおよび関連コードをリリースする。

Large language models (LLMs) like Llama, Baichuan and Bloom models show remarkable ability with instruction fine-tuning in many natural language tasks. Nevertheless, for the dialogue summarization task, which aims to generate summaries for different roles in dialogue, most of the state-of-the-art methods conduct on small models (e.g Bart and Bert). Existing methods try to add task specified optimization on small models like adding global-local centrality score to models. In this paper, we propose an instruction fine-tuning model: Baichuan2-Sum, for role-oriented diaglouge summarization. By setting different instructions for different roles, the model can learn from the dialogue interactions and output the expected summaries. Furthermore, we applied NEFTune technique to add suitable noise during training to improve the results. The experiments demonstrate that the proposed model achieves the new state-of-the-art results on two public dialogue summarization datasets: CSDS and SAMSUM. We release our model and related codes to facilitate future studies on dialogue summarization task.
翻訳日:2024-01-30 18:16:20 公開日:2024-01-27
# iDeLog:Sigma-Lognormalパラメータの反復的双対空間と運動論的抽出

iDeLog: Iterative Dual Spatial and Kinematic Extraction of Sigma-Lognormal Parameters ( http://arxiv.org/abs/2401.15473v1 )

ライセンス: Link先を確認
Miguel A. Ferrer, Moises Diaz, Cristina Carmona-Duarte, Rejean Plamondon(参考訳) 急速運動のキネマティック理論とその関連するシグマ対数正規モデルは、様々な応用で広く用いられている。 モデルの物理的および生物学的意味は、迅速な運動のために広く検証され、検証されているが、連続した長い複雑な動きで使用される際にいくつかの欠点が検出されている。 このような欠点を軽減し、モータ等価性理論と知覚可能な視覚フィードバックにインスパイアされた本研究では、Sigma-Lognormalパラメータ、すなわちiDeLogを抽出する新しい枠組みを提案する。 具体的には、iDeLogは2つのステップから構成される。 モータ等価モデルの影響を受け、第1の方法は、軌道から仮想点と角度の集合と速度から対数正規の列で定義される初期アクションプランを別々に導出する。 第2のステップでは、オープンループモータ制御と互換性のある仮想視覚フィードバックに基づいて、アクションプランの仮想目標点を反復移動させ、観測および再構成された軌道と速度とのマッチングを改善する。 手書き署名を用いた実験で、iDeLogはSigma-Lognormalの以前の開発と比べて有望な結果を得た。

The Kinematic Theory of rapid movements and its associated Sigma-Lognormal model have been extensively used in a large variety of applications. While the physical and biological meaning of the model have been widely tested and validated for rapid movements, some shortcomings have been detected when it is used with continuous long and complex movements. To alleviate such drawbacks, and inspired by the motor equivalence theory and a conceivable visual feedback, this paper proposes a novel framework to extract the Sigma-Lognormal parameters, namely iDeLog. Specifically, iDeLog consists of two steps. The first one, influenced by the motor equivalence model, separately derives an initial action plan defined by a set of virtual points and angles from the trajectory and a sequence of lognormals from the velocity. In the second step, based on a hypothetical visual feedback compatible with an open-loop motor control, the virtual target points of the action plan are iteratively moved to improve the matching between the observed and reconstructed trajectory and velocity. During experiments conducted with handwritten signatures, iDeLog obtained promising results as compared to the previous development of the Sigma-Lognormal.
翻訳日:2024-01-30 18:16:03 公開日:2024-01-27
# 合成筆跡の時間的進化

Temporal evolution in synthetic handwriting ( http://arxiv.org/abs/2401.15472v1 )

ライセンス: Link先を確認
Cristina Carmona-Duarte, Miguel A. Ferrer, Antonio Parziale, Angelo Marcelli(参考訳) 近年,生体応用のための合成手書き画像生成法が開発されている。 幼児期から成人期への筆跡の時間的進化は、これらの作品には通常未解明のまま残されている。 本稿では,テキストの軌跡計画と筆跡力学を簡略化し,手書き合成装置に時間的進化を組み込む手法を提案する。 これは、素早い人間の運動の運動論と神経モーターにインスパイアされた手書きシンセサイザーの調整されたバージョンによって達成される。 提案手法の現実性は,実および合成試料の時間的進化を定量的かつ主観的に比較することによって評価されている。 定量的テストは、文字の変動と、異なる年齢で生成された実筆と合成筆跡のストローク数を比較する視覚的知覚アルゴリズムに基づいている。 主観的テストでは,30人が合成筆跡の進化の認識現実性を評価するよう依頼される。

New methods for generating synthetic handwriting images for biometric applications have recently been developed. The temporal evolution of handwriting from childhood to adulthood is usually left unexplored in these works. This paper proposes a novel methodology for including temporal evolution in a handwriting synthesizer by means of simplifying the text trajectory plan and handwriting dynamics. This is achieved through a tailored version of the kinematic theory of rapid human movements and the neuromotor inspired handwriting synthesizer. The realism of the proposed method has been evaluated by comparing the temporal evolution of real and synthetic samples both quantitatively and subjectively. The quantitative test is based on a visual perception algorithm that compares the letter variability and the number of strokes in the real and synthetic handwriting produced at different ages. In the subjective test, 30 people are asked to evaluate the perceived realism of the evolution of the synthetic handwriting.
翻訳日:2024-01-30 18:15:43 公開日:2024-01-27
# ConvoSense: 会話AIのための単調なコモンセンス推論を克服する

ConvoSense: Overcoming Monotonous Commonsense Inferences for Conversational AI ( http://arxiv.org/abs/2401.15471v1 )

ライセンス: Link先を確認
Sarah E. Finch and Jinho D. Choi(参考訳) 常識の理解と推論を習得することは、対話を行う上で重要なスキルである。 対話コンテキストにおけるコモンセンス推論を促進するデータセットを作成する試みはいくつかあるが、既存のデータセットは詳細な詳細を欠く傾向にあり、会話にすでに存在する情報を復元し、しばしばコモンセンス推論の多面的な性質を捉えない。 これらの制約に対応するために、GPTを用いて対話文脈におけるコモンセンス推論のための新しい合成データセット、ConvoSenseをコンパイルする。 我々のデータセットには12,000の対話に対して50,000以上の推論と10の一般的な推論型が含まれており、前回のデータセットでトレーニングされたモデルと比較すると、高い新規性で予測可能な推論を生成するのに優れた対話のための生成コモンセンスモデルのトレーニングを促進する。 私たちの知る限りでは、ConvoSenseはそのような大規模な新しい推論を多数提供する最初の種類のものだ。

Mastering commonsense understanding and reasoning is a pivotal skill essential for conducting engaging conversations. While there have been several attempts to create datasets that facilitate commonsense inferences in dialogue contexts, existing datasets tend to lack in-depth details, restate information already present in the conversation, and often fail to capture the multifaceted nature of commonsense reasoning. In response to these limitations, we compile a new synthetic dataset for commonsense reasoning in dialogue contexts using GPT, ConvoSense, that boasts greater contextual novelty, offers a higher volume of inferences per example, and substantially enriches the detail conveyed by the inferences. Our dataset contains over 500,000 inferences across 12,000 dialogues with 10 popular inference types, which empowers the training of generative commonsense models for dialogue that are superior in producing plausible inferences with high novelty when compared to models trained on the previous datasets. To the best of our knowledge, ConvoSense is the first of its kind to provide such a multitude of novel inferences at such a large scale.
翻訳日:2024-01-30 18:15:29 公開日:2024-01-27
# 風速超解像と検証:拡散モデルによるERA5からCERRAへ

Wind speed super-resolution and validation: from ERA5 to CERRA via diffusion models ( http://arxiv.org/abs/2401.15469v1 )

ライセンス: Link先を確認
Fabio Merizzi, Andrea Asperti, Stefano Colamonaco(参考訳) Copernicus Regional Reanalysis for Europe(CERRA)は、欧州領域における高解像度な地域分析データセットである。 近年では、予測や気候変動研究から再生可能エネルギーの予測、資源管理、大気汚染リスク評価、希少事象の予測など、様々な気候関連タスクにおいて重要な有用性を示している。 残念ながら、CERRAの可用性は、必要な外部データを取得することの制約と、その生成に固有の計算要求により、現在よりも2年遅れている。 そこで本研究では,CERRAダウンスケーリングをデータ駆動方式で近似するために拡散モデルを用いた新しい手法を提案する。 CERRAの境界条件を提供する低分解能ERA5データセットを利用することで、我々はこれを超分解能タスクとしてアプローチする。 イタリア周辺の風速に着目して,既存のCERRAデータに基づいてトレーニングを行った結果,有望な結果を示し,オリジナルのCERRAデータを忠実に反映した。 その場観測による検証は、模型の地上測定の近似精度をさらに確認する。

The Copernicus Regional Reanalysis for Europe, CERRA, is a high-resolution regional reanalysis dataset for the European domain. In recent years it has shown significant utility across various climate-related tasks, ranging from forecasting and climate change research to renewable energy prediction, resource management, air quality risk assessment, and the forecasting of rare events, among others. Unfortunately, the availability of CERRA is lagging two years behind the current date, due to constraints in acquiring the requisite external data and the intensive computational demands inherent in its generation. As a solution, this paper introduces a novel method using diffusion models to approximate CERRA downscaling in a data-driven manner, without additional informations. By leveraging the lower resolution ERA5 dataset, which provides boundary conditions for CERRA, we approach this as a super-resolution task. Focusing on wind speed around Italy, our model, trained on existing CERRA data, shows promising results, closely mirroring original CERRA data. Validation with in-situ observations further confirms the model's accuracy in approximating ground measurements.
翻訳日:2024-01-30 18:15:09 公開日:2024-01-27
# 脆弱性検出のための大規模言語モデル:新たな結果と今後の方向性

Large Language Model for Vulnerability Detection: Emerging Results and Future Directions ( http://arxiv.org/abs/2401.15468v1 )

ライセンス: Link先を確認
Xin Zhou, Ting Zhang, David Lo(参考訳) 従来の学習ベースの脆弱性検出方法は、中規模の事前訓練モデルか、スクラッチから小さなニューラルネットワークに頼っていた。 近年のLarge Pre-Trained Language Models (LLMs) の進歩は,様々なタスクにおいて顕著な数発の学習能力を示した。 しかし、ソフトウェア脆弱性の検出におけるllmの有効性はほとんど未解明である。 本稿では,LLMが様々なプロンプトでどのように機能するか,特にGPT-3.5 と GPT-4 の2つの最先端 LLM に注目し,このギャップを埋めることを目的とする。 実験の結果, GPT-3.5は従来型の脆弱性検出手法と競合する性能を示し, GPT-4は一貫して最先端の脆弱性検出手法よりも優れていた。

Previous learning-based vulnerability detection methods relied on either medium-sized pre-trained models or smaller neural networks from scratch. Recent advancements in Large Pre-Trained Language Models (LLMs) have showcased remarkable few-shot learning capabilities in various tasks. However, the effectiveness of LLMs in detecting software vulnerabilities is largely unexplored. This paper aims to bridge this gap by exploring how LLMs perform with various prompts, particularly focusing on two state-of-the-art LLMs: GPT-3.5 and GPT-4. Our experimental results showed that GPT-3.5 achieves competitive performance with the prior state-of-the-art vulnerability detection approach and GPT-4 consistently outperformed the state-of-the-art.
翻訳日:2024-01-30 18:14:50 公開日:2024-01-27
# DataFrame QA: データ公開なしで回答するデータフレームに関する共通LLMフレームワーク

DataFrame QA: A Universal LLM Framework on DataFrame Question Answering Without Data Exposure ( http://arxiv.org/abs/2401.15463v1 )

ライセンス: Link先を確認
Junyi Ye, Mengnan Du, Guiling Wang(参考訳) 本稿では,大規模言語モデル(LLM)を用いてデータフレーム上での情報検索とデータ解析を行うPandasクエリを生成する新しいタスクであるDataFrame Question answering (QA)を紹介する。 提案手法は,データフレーム列名のみに依存しているため,データプライバシの確保だけでなく,情報処理の合理化,LLMデータ解析における大きな課題への対処など,プロンプトのコンテキストウィンドウを大幅に削減する。 我々は安全なPandasクエリ生成とコード実行を含む包括的フレームワークとしてDataFrame QAを提案する。 複雑なデータ解析クエリに適したWikiSQLと新たに開発した 'UCI-DataFrameQA' のパス@1測定値を用いて,様々な LLM,特に GPT-4 の評価を行った。 以上の結果から,gpt-4はwikisqlでは86%,uci-dataframeqaでは97%のpass@1レートを達成し,データフレーム値を安全に検索・集約し,高度なデータ解析を行う能力が強調された。 このアプローチは事前のトレーニングや調整なしにゼロショット方式でデプロイ可能であり、多様なアプリケーションに対して高い適応性と安全性が証明される。

This paper introduces DataFrame question answering (QA), a novel task that utilizes large language models (LLMs) to generate Pandas queries for information retrieval and data analysis on dataframes, emphasizing safe and non-revealing data handling. Our method, which solely relies on dataframe column names, not only ensures data privacy but also significantly reduces the context window in the prompt, streamlining information processing and addressing major challenges in LLM-based data analysis. We propose DataFrame QA as a comprehensive framework that includes safe Pandas query generation and code execution. Various LLMs, notably GPT-4, are evaluated using the pass@1 metric on the renowned WikiSQL and our newly developed 'UCI-DataFrameQA', tailored for complex data analysis queries. Our findings indicate that GPT-4 achieves pass@1 rates of 86% on WikiSQL and 97% on UCI-DataFrameQA, underscoring its capability in securely retrieving and aggregating dataframe values and conducting sophisticated data analyses. This approach, deployable in a zero-shot manner without prior training or adjustments, proves to be highly adaptable and secure for diverse applications.
翻訳日:2024-01-30 18:14:37 公開日:2024-01-27
# 合成器としての大規模言語モデル:自動脆弱性修復のための拡散入力

Large Language Model as Synthesizer: Fusing Diverse Inputs for Better Automatic Vulnerability Repair ( http://arxiv.org/abs/2401.15459v1 )

ライセンス: Link先を確認
Xin Zhou, Kisub Kim, Bowen Xu, DongGyun Han, David Lo(参考訳) ディープラーニング(dl)の進歩は、脆弱なコードから固定されたコードへのマッピングを効果的に学習する自動ソフトウェア脆弱性修復アプローチへの道を開いた。 それでも、既存のdlベースの脆弱性修復メソッドには、注目すべき制限がある。 1) 長い脆弱性のあるコードを扱うのに苦労する。 2)コードを自然言語テキストとして扱い、その固有の構造を無視し、 3) 専門家システムに存在する貴重な専門家の知識を活用しない。 これに対処するために,vulmasterを提案する。vulmasterは,その長さに関係なく,脆弱なコード全体を包括的に理解することにより,脆弱性の修復に優れた,トランスフォーマーベースのニューラルネットワークモデルである。 このモデルはまた、脆弱性のあるコード構造とCWEシステムからのエキスパート知識を含む多様な情報を統合する。 VulMasterを実世界のC/C++脆弱性修復データセットで評価した。 実験の結果,vulmasterは,学習に基づく脆弱性修復アプローチに比べて大幅に改善が見られた。 具体的には、em、bleu、codebleuのスコアを10.2\%から20.0\%、21.3\%から29.3\%、そして32.5\%から40.9\%に改善する。

The advances of deep learning (DL) have paved the way for automatic software vulnerability repair approaches, which effectively learn the mapping from the vulnerable code to the fixed code. Nevertheless, existing DL-based vulnerability repair methods face notable limitations: 1) they struggle to handle lengthy vulnerable code, 2) they treat code as natural language texts, neglecting its inherent structure, and 3) they do not tap into the valuable expert knowledge present in the expert system. To address this, we propose VulMaster, a Transformer-based neural network model that excels at generating vulnerability repairs by comprehensively understanding the entire vulnerable code, irrespective of its length. This model also integrates diverse information, encompassing vulnerable code structures and expert knowledge from the CWE system. We evaluated VulMaster on a real-world C/C++ vulnerability repair dataset comprising 1,754 projects with 5,800 vulnerable functions. The experimental results demonstrated that VulMaster exhibits substantial improvements compared to the learning-based state-of-the-art vulnerability repair approach. Specifically, VulMaster improves the EM, BLEU, and CodeBLEU scores from 10.2\% to 20.0\%, 21.3\% to 29.3\%, and 32.5\% to 40.9\%, respectively.
翻訳日:2024-01-30 18:14:14 公開日:2024-01-27
# swin変換器を用いた車両のロゴ認識の一手法

A New Method for Vehicle Logo Recognition Based on Swin Transformer ( http://arxiv.org/abs/2401.15458v1 )

ライセンス: Link先を確認
Yang Li, Doudou Zhang, Jianli Xiao(参考訳) インテリジェントトランスポーテーションシステム(ITS)は、センサー、カメラ、ビッグデータ分析を使用してリアルタイムの交通状況を監視し、交通効率と安全性の向上を目指している。 このプロセスでは正確な車両認識が重要であり、車両のロゴ認識(vlr)が鍵となる。 VLRは、道路上の車両を識別することで、効率的な管理と監視を可能にする。 畳み込みニューラルネットワーク(CNN)は、VLR研究において顕著な進歩を遂げている。 しかし、より高いパフォーマンスを達成するには、トレーニングにかなりの時間と計算資源が必要となる。 近年、Transformerモデルの台頭はVLRに新たな機会をもたらしている。 Swin Transformerは、効率的な計算とグローバル機能モデリング機能を備えた、困難な条件下でのCNNよりも優れています。 本稿では,Swin Transformer を用いてリアルタイム VLR を実装し,最適な性能を実現する。 3つの公共車両のロゴデータセット(HFUT-VL1、XMU、CTGU-VLD)で実施された大規模な実験では、それぞれ99.28%、100%、99.17%の最高精度が得られた。 さらに、転送学習戦略を用いることで、我々の手法は最先端のVLR手法と同等になる。 これらの結果は,既存手法よりもアプローチが優れていることを裏付けるものである。 将来の研究は、他の車両の視覚認識タスクにおけるSwin Transformerの応用を探索し、最適化し、ITSの進歩を推し進めることができる。

Intelligent Transportation Systems (ITS) utilize sensors, cameras, and big data analysis to monitor real-time traffic conditions, aiming to improve traffic efficiency and safety. Accurate vehicle recognition is crucial in this process, and Vehicle Logo Recognition (VLR) stands as a key method. VLR enables effective management and monitoring by distinguishing vehicles on the road. Convolutional Neural Networks (CNNs) have made impressive strides in VLR research. However, achieving higher performance demands significant time and computational resources for training. Recently, the rise of Transformer models has brought new opportunities to VLR. Swin Transformer, with its efficient computation and global feature modeling capabilities, outperforms CNNs under challenging conditions. In this paper, we implement real-time VLR using Swin Transformer and fine-tune it for optimal performance. Extensive experiments conducted on three public vehicle logo datasets (HFUT-VL1, XMU, CTGU-VLD) demonstrate impressive top accuracy results of 99.28%, 100%, and 99.17%, respectively. Additionally, the use of a transfer learning strategy enables our method to be on par with state-of-the-art VLR methods. These findings affirm the superiority of our approach over existing methods. Future research can explore and optimize the application of the Swin Transformer in other vehicle vision recognition tasks to drive advancements in ITS.
翻訳日:2024-01-30 18:13:52 公開日:2024-01-27
# 新しい霧状物体検出モデル

New Foggy Object Detecting Model ( http://arxiv.org/abs/2401.15455v1 )

ライセンス: Link先を確認
Rahul Banavathu, Modem Veda Sree, Bollina Kavya Sri, Suddhasil De(参考訳) 視認性が低下する物体検出は、顕著な研究分野となっている。 既存の技術はそのような状況下で物体を認識するのに十分ではない。 本稿では,入力画像から領域を識別し,その領域内の物体を検出する2段階アーキテクチャによる新しい霧物体検出手法を提案する。 本論文は,提案手法の既存手法に対する精度と検出時間の改善を確認した。

Object detection in reduced visibility has become a prominent research area. The existing techniques are not accurate enough in recognizing objects under such circumstances. This paper introduces a new foggy object detection method through a two-staged architecture of region identification from input images and detecting objects in such regions. The paper confirms notable improvements of the proposed method's accuracy and detection time over existing techniques.
翻訳日:2024-01-30 18:13:29 公開日:2024-01-27
# スパイクニューラルネットワークのためのベイズ推論加速器

Bayesian Inference Accelerator for Spiking Neural Networks ( http://arxiv.org/abs/2401.15453v1 )

ライセンス: Link先を確認
Prabodh Katti, Anagha Nimbekar, Chen Li, Amit Acharyya, Bashir M. Al-Hashimi, Bipin Rajendran(参考訳) ベイズニューラルネットワークは、頻繁なネットワークと比較してモデル不確実性のより良い推定を提供する。 しかしながら、ベイズモデルを含む推論には複数のインスタンス化やネットワークパラメータのサンプリングが必要であり、重要な計算資源を必要とする。 従来のディープラーニングネットワークと比較して、スパイクニューラルネットワーク(SNN)は、イベント駆動およびスパイクベースの計算フレームワークのおかげで、計算領域と電力を削減する可能性がある。 ほとんどの文献では、頻繁なSNNモデルや非スパイクベイズニューラルネットワークを扱う。 本研究では,ネットワークの重み付けを2値に制限することで,効率の良いベイズSNNをハードウェアで開発・実装するための最適化フレームワークを実証する。 我々は、完全精度のベルヌーイパラメータを持つベイジアンバイナリネットワークに匹敵するアキュラ級数を示し、等価なバイナリSNN実装よりも25\times$のスパイクを要求する。 軽量なSoCであるZynq-7000にマッピングし、GOPS/DSPの6.5 \times$の改善を実現し、最先端技術と比較して最大30倍の電力を消費する可能性を示す。

Bayesian neural networks offer better estimates of model uncertainty compared to frequentist networks. However, inference involving Bayesian models requires multiple instantiations or sampling of the network parameters, requiring significant computational resources. Compared to traditional deep learning networks, spiking neural networks (SNNs) have the potential to reduce computational area and power, thanks to their event-driven and spike-based computational framework. Most works in literature either address frequentist SNN models or non-spiking Bayesian neural networks. In this work, we demonstrate an optimization framework for developing and implementing efficient Bayesian SNNs in hardware by additionally restricting network weights to be binary-valued to further decrease power and area consumption. We demonstrate accuracies comparable to Bayesian binary networks with full-precision Bernoulli parameters, while requiring up to $25\times$ less spikes than equivalent binary SNN implementations. We show the feasibility of the design by mapping it onto Zynq-7000, a lightweight SoC, and achieve a $6.5 \times$ improvement in GOPS/DSP while utilizing up to 30 times less power compared to the state-of-the-art.
翻訳日:2024-01-30 18:13:24 公開日:2024-01-27
# 感情を信頼するために学ぶ:幻覚軽減のためのLLMにおける自己認識の活用

Learning to Trust Your Feelings: Leveraging Self-awareness in LLMs for Hallucination Mitigation ( http://arxiv.org/abs/2401.15449v1 )

ライセンス: Link先を確認
Yuxin Liang, Zhuoyang Song, Hao Wang, Jiaxing Zhang(参考訳) 我々は,LLMの現実の幻覚に対処し,信頼性を確保する上で重要な要素である,内的知識状態を識別し,表現するLarge Language Models(LLMs)の能力を評価する。 我々は, LLMにおける内部知識状態の堅牢な自己認識を, 85%以上の精度で検証した。 しかし、LSMは世代間の内部知識の表現に失敗し、事実上の幻覚に繋がる。 そこで我々は,知識探索法と一貫性検査法を組み合わせた幻覚弁別自動ツールdreamcatcherを開発した。 知識選好を報奨として,LLMの事実と誠実性を高めるために強化学習を活用する,知識フィードバックからの強化学習(RLKF)トレーニングフレームワークを提案する。 複数のモデルを対象とした実験により、RLKFトレーニングは、モデルの内部知識状態を活用する能力を効果的に向上し、様々な知識ベースおよび誠実なタスクのパフォーマンスを向上することを示した。

We evaluate the ability of Large Language Models (LLMs) to discern and express their internal knowledge state, a key factor in countering factual hallucination and ensuring reliable application of LLMs. We observe a robust self-awareness of internal knowledge state in LLMs, evidenced by over 85% accuracy in knowledge probing. However, LLMs often fail to express their internal knowledge during generation, leading to factual hallucinations. We develop an automated hallucination annotation tool, Dreamcatcher, which merges knowledge probing and consistency checking methods to rank factual preference data. Using knowledge preference as reward, We propose a Reinforcement Learning from Knowledge Feedback (RLKF) training framework, leveraging reinforcement learning to enhance the factuality and honesty of LLMs. Our experiments across multiple models show that RLKF training effectively enhances the ability of models to utilize their internal knowledge state, boosting performance in a variety of knowledge-based and honesty-related tasks.
翻訳日:2024-01-30 18:13:03 公開日:2024-01-27
# 添加物製造における利用可能なデータセットの体系的検討

A Systematic Review of Available Datasets in Additive Manufacturing ( http://arxiv.org/abs/2401.15448v1 )

ライセンス: Link先を確認
Xiao Liu and Alessandra Mileo and Alan F. Smeaton(参考訳) ビジュアルおよびその他のセンサー技術のデータを組み込んだその場監視により、加算製造(AM)プロセス中に広範なデータセットの収集が可能になる。 これらのデータセットは、製造プロセス中に機械学習を用いて、製造されたアウトプットの品質と欠陥の検出を決定する可能性を秘めている。 AMプロセスから派生したオープンデータセットと注釈付きデータセットは、機械学習コミュニティがこの機会に対処する必要がある。 この体系的なレビューは、多くの事前定義された選択基準に合致したamプロセスに由来するオープンイメージベースのデータセットの可用性を調査している。 このレビューでは、AMの領域における現在の画像ベースデータセット間の既存のギャップを特定し、追加製造における品質評価と欠陥検出を可能にするために、オープンデータセットの可用性の向上の必要性を指摘している。

In-situ monitoring incorporating data from visual and other sensor technologies, allows the collection of extensive datasets during the Additive Manufacturing (AM) process. These datasets have potential for determining the quality of the manufactured output and the detection of defects through the use of Machine Learning during the manufacturing process. Open and annotated datasets derived from AM processes are necessary for the machine learning community to address this opportunity, which creates difficulties in the application of computer vision-related machine learning in AM. This systematic review investigates the availability of open image-based datasets originating from AM processes that align with a number of pre-defined selection criteria. The review identifies existing gaps among the current image-based datasets in the domain of AM, and points to the need for greater availability of open datasets in order to allow quality assessment and defect detection during additive manufacturing, to develop.
翻訳日:2024-01-30 18:12:44 公開日:2024-01-27
# 勾配補間とカーネル平滑化を用いた連続処理効果推定

Continuous Treatment Effect Estimation Using Gradient Interpolation and Kernel Smoothing ( http://arxiv.org/abs/2401.15447v1 )

ライセンス: Link先を確認
Lokesh Nagalapatti, Akshay Iyer, Abir De, Sunita Sarawagi(参考訳) 我々は、観察データを用いた個別連続処理効果(ICTE)推定問題に対処し、連続的処理が個人に与える影響を予測する。 この推定タスクの主な課題は、トレーニングデータにおいて、個々の共変量と治療課題を関連付けることであり、一方、ICTEでは、独立してサンプリングされた治療を予測する必要がある。 正規化や不安定なGANトレーニングに頼っていた従来の作業とは対照的に,個別のサンプル処理と非現実的な結果の推測によるトレーニング個人を増強する直接的なアプローチを提唱する。 我々は,近接観測処理のための勾配補間法と,高分散推論を軽視するガウス過程に基づくカーネル平滑化法という2つの戦略を用いて,反事実を推定する。 提案手法を5つのベンチマークで評価し,提案手法が6つの最先端手法よりも精度が高いことを示す。 本手法の優れた性能は,(1)推測された反事実応答がより正確であること,(2)訓練データに加えることで,共変量とは無関係な同立訓練分布とテスト分布との分布距離を低減できることを示すことで解析する。 提案手法はモデル非依存であり,既存のモデルのicte精度が向上することを示す。

We address the Individualized continuous treatment effect (ICTE) estimation problem where we predict the effect of any continuous-valued treatment on an individual using observational data. The main challenge in this estimation task is the potential confounding of treatment assignment with an individual's covariates in the training data, whereas during inference ICTE requires prediction on independently sampled treatments. In contrast to prior work that relied on regularizers or unstable GAN training, we advocate the direct approach of augmenting training individuals with independently sampled treatments and inferred counterfactual outcomes. We infer counterfactual outcomes using a two-pronged strategy: a Gradient Interpolation for close-to-observed treatments, and a Gaussian Process based Kernel Smoothing which allows us to downweigh high variance inferences. We evaluate our method on five benchmarks and show that our method outperforms six state-of-the-art methods on the counterfactual estimation error. We analyze the superior performance of our method by showing that (1) our inferred counterfactual responses are more accurate, and (2) adding them to the training data reduces the distributional distance between the confounded training distribution and test distribution where treatment is independent of covariates. Our proposed method is model-agnostic and we show that it improves ICTE accuracy of several existing models.
翻訳日:2024-01-30 18:12:29 公開日:2024-01-27
# 因果分類に向けて:グラフニューラルネットワークの総合的研究

Towards Causal Classification: A Comprehensive Study on Graph Neural Networks ( http://arxiv.org/abs/2401.15444v1 )

ライセンス: Link先を確認
Simi Job, Xiaohui Tao, Taotao Cai, Lin Li, Haoran Xie, Jianming Yong(参考訳) グラフ構造化データ処理のためのグラフニューラルネットワーク(GNN)の探索は、特にその普遍的な近似能力による因果解析の可能性が拡大している。 分類や予測などの共通グラフに基づくタスクを著しく強化することを想定し, 因果的に強化されたGNNフレームワークの開発については, まだ徹底的に検討されていない。 この不足に対処するために,本研究は9つのベンチマークグラフ分類モデルに分解し,gnnの予測能力に対する因果性の影響を識別するために,3つの異なる領域にまたがる7つのデータセットにまたがる強みと汎用性をテストした。 この研究は、これらのモデルの詳細な評価、その効率性、異なるデータ環境における柔軟性、進歩を必要とする領域の強調を提供する。 我々の発見は、多種多様なデータ中心分野におけるGNNの理解と実用化の促進に有効である。

The exploration of Graph Neural Networks (GNNs) for processing graph-structured data has expanded, particularly their potential for causal analysis due to their universal approximation capabilities. Anticipated to significantly enhance common graph-based tasks such as classification and prediction, the development of a causally enhanced GNN framework is yet to be thoroughly investigated. Addressing this shortfall, our study delves into nine benchmark graph classification models, testing their strength and versatility across seven datasets spanning three varied domains to discern the impact of causality on the predictive prowess of GNNs. This research offers a detailed assessment of these models, shedding light on their efficiency, and flexibility in different data environments, and highlighting areas needing advancement. Our findings are instrumental in furthering the understanding and practical application of GNNs in diverse datacentric fields
翻訳日:2024-01-30 18:12:04 公開日:2024-01-27
# 差分プライベートベイズ試験

Differentially Private Bayesian Tests ( http://arxiv.org/abs/2401.15502v1 )

ライセンス: Link先を確認
Abhisek Chakraborty, Saptati Datta(参考訳) 識別プライバシーは、機密データを利用した科学的仮説テストの領域において重要な基盤として浮上している。 科学的発見の報告において、ベイズ検定は、p値の重要な批判、すなわち解釈可能性の欠如と、競合する仮説を支持する証拠を定量化できないことを効果的に回避するため、広く採用されている。 本稿では,原理的なデータ生成機構の下で自然発生し,帰結する推論の解釈可能性を維持する,微分的にプライベートなベイズ仮説テストフレームワークを提案する。 さらに,広範に使用されるテスト統計に基づく微分プライベートベイズ係数に着目して,データ生成機構のモデル化を回避し,計算効率の大幅な向上を図る。 また,提案フレームワークの下でベイズ係数の整合性を示すための十分な条件のセットも提供する。 考案された技術の実用性は、いくつかの数値実験によって示される。

Differential privacy has emerged as an significant cornerstone in the realm of scientific hypothesis testing utilizing confidential data. In reporting scientific discoveries, Bayesian tests are widely adopted since they effectively circumnavigate the key criticisms of P-values, namely, lack of interpretability and inability to quantify evidence in support of the competing hypotheses. We present a novel differentially private Bayesian hypotheses testing framework that arise naturally under a principled data generative mechanism, inherently maintaining the interpretability of the resulting inferences. Furthermore, by focusing on differentially private Bayes factors based on widely used test statistics, we circumvent the need to model the complete data generative mechanism and ensure substantial computational benefits. We also provide a set of sufficient conditions to establish results on Bayes factor consistency under the proposed framework. The utility of the devised technology is showcased via several numerical experiments.
翻訳日:2024-01-30 18:04:27 公開日:2024-01-27
# FloodLense: ChatGPTベースのリアルタイム洪水検出フレームワーク

FloodLense: A Framework for ChatGPT-based Real-time Flood Detection ( http://arxiv.org/abs/2401.15501v1 )

ライセンス: Link先を確認
Pranath Reddy Kumbam, Kshitij Maruti Vejre(参考訳) 本研究は,リアルタイム洪水検出・管理の課題に対処する。 先進的なディープラーニングモデルと大規模言語モデル(LLM)を革新的に組み合わせ、洪水モニタリングと応答能力を向上する。 このアプローチは、より正確で汎用性があり、ユーザフレンドリーでアクセス可能なソリューションを提供することで、現在のメソッドの制限に対処する。 UNet、RDN、ViTモデルと自然言語処理を統合することで、航空画像や衛星画像などの様々な環境における洪水領域の検出が大幅に向上する。 実験評価の結果,洪水地域を正確に同定しマッピングするモデルの有効性が示され,環境モニタリングと防災分野の転換におけるプロジェクトの可能性が示された。

This study addresses the vital issue of real-time flood detection and management. It innovatively combines advanced deep learning models with Large language models (LLM), enhancing flood monitoring and response capabilities. This approach addresses the limitations of current methods by offering a more accurate, versatile, user-friendly and accessible solution. The integration of UNet, RDN, and ViT models with natural language processing significantly improves flood area detection in diverse environments, including using aerial and satellite imagery. The experimental evaluation demonstrates the models' efficacy in accurately identifying and mapping flood zones, showcasing the project's potential in transforming environmental monitoring and disaster management fields.
翻訳日:2024-01-30 18:04:11 公開日:2024-01-27
# ソフトラベルを用いたベイズ二項分類器の偽陽性率のデータ駆動推定

Data-Driven Estimation of the False Positive Rate of the Bayes Binary Classifier via Soft Labels ( http://arxiv.org/abs/2401.15500v1 )

ライセンス: Link先を確認
Minoh Jeong, Martina Cardone, Alex Dytso(参考訳) 分類は、データ駆動型メソッドが優れた性能を示す多くのアプリケーションにおいて基本的なタスクである。 しかし,このような手法が最適性能を達成したかどうかを判断することは困難である。 これは、最も達成可能なパフォーマンスが一般的に不明であるため、効果的に見積もることが最重要である。 本稿では,二項分類問題について考察し,与えられたデータセットからベイズ分類器の偽陽性率(fpr),すなわち精度に関する最適分類器の推定器を提案する。 本手法はソフトラベル(実値ラベル)を用いており,その特性により大きなトラクションを得ている。 我々は,その一貫性,不偏性,収束率,分散など,推定器の様々な理論的特性を徹底的に検討する。 ソフトラベル以外の推定器の汎用性を高めるために,バイナリラベルを包含するノイズラベルについても検討する。 雑音ラベルに対しては, ノイズ除去手法とNadaraya-Watson推定器を利用して, 有効なFPR推定器を開発する。 問題の対称性のため、ベイズ分類器の偽陰率を推定するために、我々の結果は容易に適用できる。

Classification is a fundamental task in many applications on which data-driven methods have shown outstanding performances. However, it is challenging to determine whether such methods have achieved the optimal performance. This is mainly because the best achievable performance is typically unknown and hence, effectively estimating it is of prime importance. In this paper, we consider binary classification problems and we propose an estimator for the false positive rate (FPR) of the Bayes classifier, that is, the optimal classifier with respect to accuracy, from a given dataset. Our method utilizes soft labels, or real-valued labels, which are gaining significant traction thanks to their properties. We thoroughly examine various theoretical properties of our estimator, including its consistency, unbiasedness, rate of convergence, and variance. To enhance the versatility of our estimator beyond soft labels, we also consider noisy labels, which encompass binary labels. For noisy labels, we develop effective FPR estimators by leveraging a denoising technique and the Nadaraya-Watson estimator. Due to the symmetry of the problem, our results can be readily applied to estimate the false negative rate of the Bayes classifier.
翻訳日:2024-01-30 18:03:58 公開日:2024-01-27
# 単語埋め込みのためのコサインに基づくバイアススコアの意味的特性

Semantic Properties of cosine based bias scores for word embeddings ( http://arxiv.org/abs/2401.15499v1 )

ライセンス: Link先を確認
Sarah Schr\"oder, Alexander Schulz, Fabian Hinder and Barbara Hammer(参考訳) 多くの研究が言語モデルに社会的バイアスをもたらし、そのようなバイアスを検出する方法を提案した。 その結果、文献には多くの異なるバイアステストとスコアが含まれており、それぞれが他のスコアが検出できないバイアスを明らかにするために導入された。 しかし、文献にひどく欠けているのは、バイアススコアを分析し、研究者が既存の方法の利点や限界を理解するのに役立つ比較研究である。 本研究では,コサインに基づくバイアススコアのギャップを埋めることを目的としている。 バイアスの幾何学的定義を基礎として,バイアススコアがバイアスの定量化に有意であると考えられる要件を提案する。 さらに,これらの要件に関する文献から,コサインに基づくスコアを公式に分析する。 これらの結果は、バイアススコアの制限がアプリケーションケースに影響を及ぼすことを示す実験で裏付けられている。

Plenty of works have brought social biases in language models to attention and proposed methods to detect such biases. As a result, the literature contains a great deal of different bias tests and scores, each introduced with the premise to uncover yet more biases that other scores fail to detect. What severely lacks in the literature, however, are comparative studies that analyse such bias scores and help researchers to understand the benefits or limitations of the existing methods. In this work, we aim to close this gap for cosine based bias scores. By building on a geometric definition of bias, we propose requirements for bias scores to be considered meaningful for quantifying biases. Furthermore, we formally analyze cosine based scores from the literature with regard to these requirements. We underline these findings with experiments to show that the bias scores' limitations have an impact in the application case.
翻訳日:2024-01-30 18:03:39 公開日:2024-01-27
# 言語固有のFact-Checkingモデルが必要か? 中国語の事例

Do We Need Language-Specific Fact-Checking Models? The Case of Chinese ( http://arxiv.org/abs/2401.15498v1 )

ライセンス: Link先を確認
Caiqi Zhang, Zhijiang Guo, Andreas Vlachos(参考訳) 本稿では,中国語の事例に着目し,言語固有のファクトチェックモデルの潜在的メリットについて検討する。 本稿では,中国語のクレームや証拠を英語に翻訳したり,あるいは多言語大言語モデル(gpt4)を用いて直接翻訳する手法の限界を示し,言語固有のシステムの必要性を強調する。 さらに,文の文脈を考慮した証拠選択をペアワイズ文分類タスクとして扱う従来のアプローチとは対照的に,最新の中国の事実チェックシステムを開発する。 また、我々のモデルにおけるバイアスを識別するための敵対的データセットを作成し、それらは英語のデータセットやモデルのように存在するが、中国文化に特有であることが多い。 本研究は,誤情報に効果的に対応するための言語固有の事実チェックモデルの重要性を強調した。

This paper investigates the potential benefits of language-specific fact-checking models, focusing on the case of Chinese. We demonstrate the limitations of methods such as translating Chinese claims and evidence into English or directly using multilingual large language models (e.g. GPT4), highlighting the need for language-specific systems. We further develop a state-of-the-art Chinese fact-checking system that, in contrast to previous approaches which treat evidence selection as a pairwise sentence classification task, considers the context of sentences. We also create an adversarial dataset to identify biases in our model, and while they are present as in English language datasets and models, they are often specific to the Chinese culture. Our study emphasizes the importance of language-specific fact-checking models to effectively combat misinformation.
翻訳日:2024-01-30 18:03:25 公開日:2024-01-27
# 先進的なアーティストの意見:AI生成芸術における透明性、オーナーシップ、公正性に関する調査研究

Foregrounding Artist Opinions: A Survey Study on Transparency, Ownership, and Fairness in AI Generative Art ( http://arxiv.org/abs/2401.15497v1 )

ライセンス: Link先を確認
Juniper Lovato, Julia Zimmerman, Isabelle Smith, Peter Dodds, Jennifer Karson(参考訳) 生成人工知能(AI)ツールは、アートのようなアウトプットを作成し、創造的なプロセスを支援するために使用される。 これらのツールはアーティストに利益をもたらすが、芸術労働力を傷つけ、芸術的および知的所有権を侵害する可能性がある。 生成AI作成者は、アーティストからの明確な同意なく、アーチストのデジタル作品をスクラップして、生成AIモデルをトレーニングし、大規模にアートライクなモデル出力を生成する。 これらのアウトプットは、現在、市場での人間アーティストとの競争に使われ、また、生成過程においてアートを作成するアーティストによって使用されている。 我々は459人のアーティストを調査し、生成AIアートの潜在的有用性と害に関するアーティストの意見の緊張関係を調査した。 本研究では、生成AIアートモデルの有用性と脅威、AIアートトレーニングモデルにおける芸術作品の公開における公正な実践、AIアートデリバティブの所有と権利、公正な補償に関するアーティストの意見を調査する。 概して、モデルクリエーターは、AIモデルをトレーニングするために使用するアートやイメージの詳細を開示する必要がある、と私たちは考えています。 また, アーティストの意見は, 職業的地位や実践, 人口動態, 美術品購入の有無, 生成aiの習熟度, 利用によって異なることがわかった。 この研究の結果が、アートコミュニティとジェネレーティブAI研究者と開発者の間でより有意義なコラボレーションと整合性をもたらすことを期待しています。

Generative Artificial Intelligence (AI) tools are used to create art-like outputs and aid in the creative process. While these tools have potential benefits for artists, they also have the potential to harm the art workforce and infringe upon artistic and intellectual property rights. Without explicit consent from artists, Generative AI creators scrape artists' digital work to train Generative AI models and produce art-like model outputs at scale. These outputs are now being used to compete with human artists in the marketplace as well as being used by some artists in their generative processes to create art. We surveyed 459 artists to investigate the tension between artists' opinions on Generative AI art's potential utility and harm. This study surveys artists' opinions on the utility and threat of Generative AI art models, fair practices in the disclosure of artistic works in AI art training models, ownership and rights of AI art derivatives, and fair compensation. We find that artists, by and large, think that model creators should be required to disclose in detail what art and images they use to train their AI models. We also find that artists' opinions vary by professional status and practice, demographics, whether they have purchased art, and familiarity with and use of Generative AI. We hope the results of this work will further more meaningful collaboration and alignment between the art community and Generative AI researchers and developers.
翻訳日:2024-01-30 18:03:11 公開日:2024-01-27
# 最適輸送を用いた副次的マルチモーダル情報を用いた表現認識

Distilling Privileged Multimodal Information for Expression Recognition using Optimal Transport ( http://arxiv.org/abs/2401.15489v1 )

ライセンス: Link先を確認
Muhammad Haseeb Aslam, Muhammad Osama Zeeshan, Soufiane Belharbi, Marco Pedersoli, Alessandro Koerich, Simon Bacon and Eric Granger(参考訳) 相補的および冗長な意味情報をモデル化する能力により,マルチモーダル感情認識モデルは実験室環境において顕著な性能を達成している。 しかし、これらのモデルは、主に訓練に使用するモダリティの非使用性や品質のため、野生では苦戦している。 実際には、テスト時に利用できるのはトレーニング時モダリティのサブセットのみである。 特権情報(PI)による学習は、ディープラーニングモデル(DL)がトレーニング中にのみ利用できる追加のモダリティからデータを利用することを可能にする。 複数の教師モデル(いずれもモダリティで訓練された)を共通の学生モデルに蒸留するために、最先端知識蒸留(KD)法が提案されている。 これらの特権的KD法は、通常、ポイント・ツー・ポイントマッチングを利用しており、特権的モダリティを導入して形成された教師表現空間の構造情報をキャプチャする明確なメカニズムを持たない。 我々は、この同じ構造を学生空間にエンコードすることで、生徒のパフォーマンスが向上する可能性があると論じている。 本稿では, 最適輸送(ot)に基づく新しい構造的kd機構を紹介し, エントロピー正規化otは構造的暗黒知識を蒸留する。 PKDOT (Privleged KD with OT) 法により、コサイン類似性行列を計算してマルチモーダル教師表現の局所構造を捕捉し、上位kアンカーを選択して、スパースOT溶液を許容し、より安定した蒸留プロセスをもたらす。 実験はBiovidデータセット(正規分類)の痛み推定とAffwild2データセット(回帰)の覚醒価予測の2つの異なる問題で実施された。 その結果,提案手法は最先端のkd法よりも優れていることがわかった。 異なるモダリティと融合アーキテクチャの多様性は、提案手法がモダリティとモデルに依存しないことを示している。

Multimodal affect recognition models have reached remarkable performance in the lab environment due to their ability to model complementary and redundant semantic information. However, these models struggle in the wild, mainly because of the unavailability or quality of modalities used for training. In practice, only a subset of the training-time modalities may be available at test time. Learning with privileged information (PI) enables deep learning models (DL) to exploit data from additional modalities only available during training. State-of-the-art knowledge distillation (KD) methods have been proposed to distill multiple teacher models (each trained on a modality) to a common student model. These privileged KD methods typically utilize point-to-point matching and have no explicit mechanism to capture the structural information in the teacher representation space formed by introducing the privileged modality. We argue that encoding this same structure in the student space may lead to enhanced student performance. This paper introduces a new structural KD mechanism based on optimal transport (OT), where entropy-regularized OT distills the structural dark knowledge. Privileged KD with OT (PKDOT) method captures the local structures in the multimodal teacher representation by calculating a cosine similarity matrix and selects the top-k anchors to allow for sparse OT solutions, resulting in a more stable distillation process. Experiments were performed on two different problems: pain estimation on the Biovid dataset (ordinal classification) and arousal-valance prediction on the Affwild2 dataset (regression). Results show that the proposed method can outperform state-of-the-art privileged KD methods on these problems. The diversity of different modalities and fusion architectures indicates that the proposed PKDOT method is modality and model-agnostic.
翻訳日:2024-01-30 18:02:42 公開日:2024-01-27
# 人工知能: 破滅的なリスクの議論

Artificial Intelligence: Arguments for Catastrophic Risk ( http://arxiv.org/abs/2401.15487v1 )

ライセンス: Link先を確認
Adam Bales, William D'Alessandro, Cameron Domenico Kirk-Giannini(参考訳) 人工知能(AI)の最近の進歩は、この技術の変革の可能性に注意を向けている。 我々は、AIが破滅的なリスクにどう影響するかを示す2つの影響力ある議論をレビューする。 最初の議論 -- 電力探索の問題 -- は、ある仮定の下では、高度なAIシステムは彼らの目標を追求する危険な電力探索行動に関与する可能性が高いと主張している。 我々は、AIシステムが力を求めるかもしれない、それを得るかもしれない、それが大惨事につながるかもしれない、そしていずれにせよそのようなシステムを構築、展開するかもしれないと考える理由をレビューする。 第2の主張は、人間レベルのAIの開発が、人間よりもはるかに有能なAIシステムにおいて、さらなる進歩を素早く解き放つ、というものである。 このようなシステムの一部で電力を探す行動は特に危険かもしれない。 いずれの議論にも様々な異議を唱え、議論の状況を評価することによって結論づける。

Recent progress in artificial intelligence (AI) has drawn attention to the technology's transformative potential, including what some see as its prospects for causing large-scale harm. We review two influential arguments purporting to show how AI could pose catastrophic risks. The first argument -- the Problem of Power-Seeking -- claims that, under certain assumptions, advanced AI systems are likely to engage in dangerous power-seeking behavior in pursuit of their goals. We review reasons for thinking that AI systems might seek power, that they might obtain it, that this could lead to catastrophe, and that we might build and deploy such systems anyway. The second argument claims that the development of human-level AI will unlock rapid further progress, culminating in AI systems far more capable than any human -- this is the Singularity Hypothesis. Power-seeking behavior on the part of such systems might be particularly dangerous. We discuss a variety of objections to both arguments and conclude by assessing the state of the debate.
翻訳日:2024-01-30 18:02:11 公開日:2024-01-27
# サンプリング不変パラメトリゼーションによる平均場ゲームに対する教師なし解演算子学習

Unsupervised Solution Operator Learning for Mean-Field Games via Sampling-Invariant Parametrizations ( http://arxiv.org/abs/2401.15482v1 )

ライセンス: Link先を確認
Han Huang, Rongjie Lai(参考訳) 近年のディープラーニングの進歩は、高次元平均場ゲーム(MFG)を正確かつ効率的に解決する多くの革新的なフレームワークを目撃してきた。 しかし、これらの手法はシングルインスタンスmfgの解決に制限されており、インスタンスあたりの計算時間を広範囲に要求し、実用性を制限している。 そこで我々は,MFGソリューション演算子を学習するための新しいフレームワークを開発した。 我々のモデルはMFGインスタンスを入力として取り出し、1つのフォワードパスで解を出力する。 提案したパラメトリゼーションが演算子学習に適することを保証するため,本モデルに対するサンプリング不変性の概念を導入,証明し,サンプリング限界における連続演算子への収束性を確立する。 我々の方法には2つの利点がある。 第一に、離散化フリーであり、特に高次元MFGの学習演算子に適している。 第二に、教師付きラベルへのアクセスなしにトレーニングすることができ、既存のオペレータ学習メソッドでトレーニングデータセットを作成する際の計算オーバーヘッドを大幅に削減できる。 我々は、その頑健さを裏付けるために、様々な複雑さと次元を持つ合成および現実的なデータセットの枠組みをテストする。

Recent advances in deep learning has witnessed many innovative frameworks that solve high dimensional mean-field games (MFG) accurately and efficiently. These methods, however, are restricted to solving single-instance MFG and demands extensive computational time per instance, limiting practicality. To overcome this, we develop a novel framework to learn the MFG solution operator. Our model takes a MFG instances as input and output their solutions with one forward pass. To ensure the proposed parametrization is well-suited for operator learning, we introduce and prove the notion of sampling invariance for our model, establishing its convergence to a continuous operator in the sampling limit. Our method features two key advantages. First, it is discretization-free, making it particularly suitable for learning operators of high-dimensional MFGs. Secondly, it can be trained without the need for access to supervised labels, significantly reducing the computational overhead associated with creating training datasets in existing operator learning methods. We test our framework on synthetic and realistic datasets with varying complexity and dimensionality to substantiate its robustness.
翻訳日:2024-01-30 18:01:56 公開日:2024-01-27
# BugsInPy: 制御されたテストとデバッグ研究を可能にするPythonプログラムの既存のバグデータベース

BugsInPy: A Database of Existing Bugs in Python Programs to Enable Controlled Testing and Debugging Studies ( http://arxiv.org/abs/2401.15481v1 )

ライセンス: Link先を確認
Ratnadira Widyasari, Sheng Qin Sim, Camellia Lok, Haodi Qi, Jack Phan, Qijin Tay, Constance Tan, Fiona Wee, Jodie Ethelda Tan, Yuheng Yieh, Brian Goh, Ferdian Thung, Hong Jin Kang, Thong Hoang, David Lo, Eng Lieh Ouh(参考訳) Stack Overflow開発者調査の2019年版では、PythonがJavaを初めて上回ったことが強調されている。 調査の2020年版では、PythonとJavaのギャップはさらに拡大した。 残念ながら、Pythonの人気が急上昇しているにもかかわらず、Python用に設計されたテストやデバッグツールは多くはない。 これは、Javaのテストツールやデバッグツールが豊富にあるのとは対照的である。 したがって、python開発者を助けるツールの研究をプッシュする必要がある。 Javaテストとデバッグツールの急速な成長に寄与した要因の1つは、ベンチマークの可用性である。 人気のあるベンチマークは defects4j ベンチマークで、最初のバージョンは 5 つの現実世界の java プログラムからの 357 の実際のバグを含んでいた。 各バグには、バグを公開するテストスイートが付属している。 Defects4Jは何百ものテストとデバッギング研究で使われており、これらの方向に研究のフロンティアを推し進めている。 このプロジェクトでは、欠陥4jに触発されて、17の現実世界のpythonプログラムから463の実際のバグを含むベンチマークデータベースとツールを作成します。 当社のベンチマークは,Pythonプログラムで動作するテストツールやデバッグツールの今後の開発を促進する上で有効です。

The 2019 edition of Stack Overflow developer survey highlights that, for the first time, Python outperformed Java in terms of popularity. The gap between Python and Java further widened in the 2020 edition of the survey. Unfortunately, despite the rapid increase in Python's popularity, there are not many testing and debugging tools that are designed for Python. This is in stark contrast with the abundance of testing and debugging tools for Java. Thus, there is a need to push research on tools that can help Python developers. One factor that contributed to the rapid growth of Java testing and debugging tools is the availability of benchmarks. A popular benchmark is the Defects4J benchmark; its initial version contained 357 real bugs from 5 real-world Java programs. Each bug comes with a test suite that can expose the bug. Defects4J has been used by hundreds of testing and debugging studies and has helped to push the frontier of research in these directions. In this project, inspired by Defects4J, we create another benchmark database and tool that contain 493 real bugs from 17 real-world Python programs. We hope our benchmark can help catalyze future work on testing and debugging tools that work on Python programs.
翻訳日:2024-01-30 18:01:39 公開日:2024-01-27
# 社会的解釈可能な強化学習

Social Interpretable Reinforcement Learning ( http://arxiv.org/abs/2401.15480v1 )

ライセンス: Link先を確認
Leonardo Lucio Custode, Giovanni Iacca(参考訳) 強化学習(RL)は多くのアプリケーションで実現可能な技術であることを約束している。 しかし、この分野の文献の多くは、現在不透明なモデルに焦点が当てられているため、解釈可能性が非常に重要であるハイテイクシナリオにおけるRLの使用は制限されている。 近年、例えば決定木に基づく解釈可能なRLに対するいくつかのアプローチが提案されているが、これらの手法の主な制限の1つはトレーニングコストである。 この制限を克服するために,社会学習の原則に触発された社会解釈RL (Social Interpretable RL) と呼ばれる新しい集団ベースの手法を提案する。 本手法は,グループ内の各エージェントが,自身の経験と仲間と一緒に獲得した経験の両方に基づいて,与えられた課題を解くことを学習する社会的学習過程を模倣する。 我々のアプローチは2つのフェーズに分かれている。 emph{collaborative phase} では、集団内のすべてのエージェントが環境の共有インスタンスと相互作用し、それぞれのエージェントが状態を観察し、独立してアクションを提案する。 次に、実際に環境で実行されるアクションを選択するために投票を行う。 emph{individual phase} では、各エージェントは環境のインスタンスと相互作用することで個々のパフォーマンスを洗練させる。 この機構により、エージェントはより多くのエピソードを経験し、同時にプロセスの計算コストを削減できる。 6つのよく知られたベンチマークの結果から、SIRLは文献の代替解釈可能な手法として最先端の性能に達することが示されている。

Reinforcement Learning (RL) bears the promise of being an enabling technology for many applications. However, since most of the literature in the field is currently focused on opaque models, the use of RL in high-stakes scenarios, where interpretability is crucial, is still limited. Recently, some approaches to interpretable RL, e.g., based on Decision Trees, have been proposed, but one of the main limitations of these techniques is their training cost. To overcome this limitation, we propose a new population-based method, called Social Interpretable RL (SIRL), inspired by social learning principles, to improve learning efficiency. Our method mimics a social learning process, where each agent in a group learns to solve a given task based both on its own individual experience as well as the experience acquired together with its peers. Our approach is divided into two phases. In the \emph{collaborative phase}, all the agents in the population interact with a shared instance of the environment, where each agent observes the state and independently proposes an action. Then, voting is performed to choose the action that will actually be performed in the environment. In the \emph{individual phase}, each agent refines its individual performance by interacting with its own instance of the environment. This mechanism makes the agents experience a larger number of episodes while simultaneously reducing the computational cost of the process. Our results on six well-known benchmarks show that SIRL reaches state-of-the-art performance w.r.t. the alternative interpretable methods from the literature.
翻訳日:2024-01-30 18:01:20 公開日:2024-01-27
# API後ジレンマ検索エンジンの検索結果をナビゲートするページはソーシャルメディアデータのバイザードビューを表示する

Navigating the Post-API Dilemma Search Engine Results Pages Present a Biased View of Social Media Data ( http://arxiv.org/abs/2401.15479v1 )

ライセンス: Link先を確認
Amrit Poudel, Tim Weninger(参考訳) ソーシャルメディアAPIへのアクセスを中止するという最近の決定は、インターネット研究や計算社会科学全般に有害な影響を与えている。 このデータへのアクセスの欠如は、インターネット研究のポストAPI時代と呼ばれる。 幸いなことに、人気のある検索エンジンは、適切な検索クエリを提供した場合、検索結果ページ(SERP)上でソーシャルメディアデータをクロール、キャプチャ、サーフェスする手段を持ち、このジレンマの解決策を提供するかもしれない。 SERPはソーシャルメディアデータの完全かつ偏見のないサンプルを提供していますか? SERPは直接APIアクセスの代替になり得るか? これらの質問に答えるために、(Google) SERP結果とRedditとTwitter/Xの非サンプルデータの比較分析を行った。 SERPの結果は、政治的、ポルノ的、下品なポストに対する人気ポストに非常に偏りがあり、彼らの感情においてより肯定的であり、大きな話題のギャップがある。 全体として、SERPはソーシャルメディアAPIアクセスの代替となるものではないと結論付けている。

Recent decisions to discontinue access to social media APIs are having detrimental effects on Internet research and the field of computational social science as a whole. This lack of access to data has been dubbed the Post-API era of Internet research. Fortunately, popular search engines have the means to crawl, capture, and surface social media data on their Search Engine Results Pages (SERP) if provided the proper search query, and may provide a solution to this dilemma. In the present work we ask: does SERP provide a complete and unbiased sample of social media data? Is SERP a viable alternative to direct API-access? To answer these questions, we perform a comparative analysis between (Google) SERP results and nonsampled data from Reddit and Twitter/X. We find that SERP results are highly biased in favor of popular posts; against political, pornographic, and vulgar posts; are more positive in their sentiment; and have large topical gaps. Overall, we conclude that SERP is not a viable alternative to social media API access.
翻訳日:2024-01-30 18:00:55 公開日:2024-01-27
# 生物経路学習のための製品マニフォールド表現

Product Manifold Representations for Learning on Biological Pathways ( http://arxiv.org/abs/2401.15478v1 )

ライセンス: Link先を確認
Daniel McNeela, Frederic Sala, Anthony Gitter(参考訳) 非ユークリッド空間にグラフを埋め込んだ機械学習モデルは、様々な文脈でかなりの利点を示しているが、その応用は生物学的領域、特に生物学的経路グラフに関して広く研究されていない。 このようなグラフは様々な複雑なネットワーク構造を示し、既存の埋め込みアプローチへの挑戦を示す。 生物学的経路グラフのための高品質な埋め込みの学習は、病気の根底を理解し、これらのネットワーク上で高品質な予測モデルを訓練しようとする研究者にとって重要である。 本研究では,非ユークリッド混合曲率空間における埋め込み経路グラフの効果を調べ,従来のユークリッドグラフ表現学習モデルと比較する。 次に、学習ノード埋め込みを用いて教師付きモデルを訓練し、経路グラフにおけるタンパク質とタンパク質の相互作用の欠如を予測する。 混合曲率埋め込みとそれに対応するグラフニューラルネットワークモデルを用いた結果,分布内エッジ予測性能のゆがみの低減と向上がみられた。 しかし、混合曲率表現が既存のベースラインを分散しないエッジ予測性能に過小評価していることは、これらの表現がトレーニンググラフトポロジーに過剰に適合する可能性を示唆している。 混合曲率製品GCNコードはhttps://github.com/mcneela/Mixed-Curvature-GCNで、経路解析コードはhttps://github.com/mcneela/Mixed-Curvature-Pathwaysで提供します。

Machine learning models that embed graphs in non-Euclidean spaces have shown substantial benefits in a variety of contexts, but their application has not been studied extensively in the biological domain, particularly with respect to biological pathway graphs. Such graphs exhibit a variety of complex network structures, presenting challenges to existing embedding approaches. Learning high-quality embeddings for biological pathway graphs is important for researchers looking to understand the underpinnings of disease and train high-quality predictive models on these networks. In this work, we investigate the effects of embedding pathway graphs in non-Euclidean mixed-curvature spaces and compare against traditional Euclidean graph representation learning models. We then train a supervised model using the learned node embeddings to predict missing protein-protein interactions in pathway graphs. We find large reductions in distortion and boosts on in-distribution edge prediction performance as a result of using mixed-curvature embeddings and their corresponding graph neural network models. However, we find that mixed-curvature representations underperform existing baselines on out-of-distribution edge prediction performance suggesting that these representations may overfit to the training graph topology. We provide our mixed-curvature product GCN code at https://github.com/mcneela/Mixed-Curvature-GCN and our pathway analysis code at https://github.com/mcneela/Mixed-Curvature-Pathways.
翻訳日:2024-01-30 18:00:35 公開日:2024-01-27
# バーストにせよバーストにせよ:不可能なテキストの生成と定量化

To Burst or Not to Burst: Generating and Quantifying Improbable Text ( http://arxiv.org/abs/2401.15476v1 )

ライセンス: Link先を確認
Kuleen Sasse, Samuel Barham, Efsun Sarioglu Kayi, Edward W. Staley(参考訳) 大規模言語モデル(LLM)はテキスト生成能力が非常に高いが、その出力は人間によるテキストと区別可能である。 我々は、この分離を、テキスト上の多くのメトリクス、多くのサンプリング技術、多くの種類のテキストデータ、そして2つの人気のあるllm、llamaとvicunaで検討する。 その過程で,人間と機械のテキストの差異を強調する新しい測定基準である回復可能性を導入し,このギャップを埋めるために設計された新しいサンプリング手法であるバーストサンプリングを提案する。 LLaMAとVicunaは、多くの指標の下で異なる分布を持ち、これは我々の結果に影響を与える。 vicunaを使用する場合、バーストサンプリングは、他のサンプリング技術に比べて実際のテキストに分布的に近いテキストを生成する。

While large language models (LLMs) are extremely capable at text generation, their outputs are still distinguishable from human-authored text. We explore this separation across many metrics over text, many sampling techniques, many types of text data, and across two popular LLMs, LLaMA and Vicuna. Along the way, we introduce a new metric, recoverability, to highlight differences between human and machine text; and we propose a new sampling technique, burst sampling, designed to close this gap. We find that LLaMA and Vicuna have distinct distributions under many of the metrics, and that this influences our results: Recoverability separates real from fake text better than any other metric when using LLaMA. When using Vicuna, burst sampling produces text which is distributionally closer to real text compared to other sampling techniques.
翻訳日:2024-01-30 18:00:07 公開日:2024-01-27
# 基底画像基礎モデルの伝達可能性を探る:高血圧網膜症への応用

Exploring the Transferability of a Foundation Model for Fundus Images: Application to Hypertensive Retinopathy ( http://arxiv.org/abs/2401.15526v1 )

ライセンス: Link先を確認
Julio Silva-Rodriguez, Jihed Chelbi, Waziha Kabir, Hadi Chakor, Jose Dolz, Ismail Ben Ayed and Riadh Kobbi(参考訳) Imagenetで事前トレーニングされたディープラーニングモデルを使用することは、データの不足に対処する医療画像分類の従来のソリューションである。 しかしながら、関連する文献では、この戦略はドメイン間の相違が大きいため、限られた利益をもたらす可能性があるとしている。 現在、ドメイン特化基礎モデルを適用するパラダイムは、有望な代替物であることが証明されています。 しかし,このような知識伝達の方法や,それが提示するメリットや制限は検討中である。 cgi-hrdc challenge for hypertensive retinopathy diagnosis on fundus images では、網膜の視覚言語基盤モデル flair の移植性を評価する絶好の機会が紹介されている。 本研究は,FLAIR特徴を基礎画像分類の出発点として活用する可能性について検討し,その性能を2つの一般的な変換学習手法であるLinear Probing(LP)とFine-Tuning(FP)と比較する。 私たちの経験的観察は、いずれにせよ、従来の戦略がパフォーマンスの向上をもたらすことを示唆しています。 対照的にFLAIRモデルからの直接転送性は2.5%である。 ネットワーク全体を微調整する場合、パフォーマンスギャップは4%まで増加する。 本稿では,分類器のLP初期化による特徴劣化の回避が,事前学習したリッチな特徴の再使用を可能にすることを示す。 LPを用いた直接転送は依然として性能に限界があるが,FLAIRのような基礎モデルは,ディープラーニングに基づく基礎画像解析の進化を促進するだろうと考えている。

Using deep learning models pre-trained on Imagenet is the traditional solution for medical image classification to deal with data scarcity. Nevertheless, relevant literature supports that this strategy may offer limited gains due to the high dissimilarity between domains. Currently, the paradigm of adapting domain-specialized foundation models is proving to be a promising alternative. However, how to perform such knowledge transfer, and the benefits and limitations it presents, are under study. The CGI-HRDC challenge for Hypertensive Retinopathy diagnosis on fundus images introduces an appealing opportunity to evaluate the transferability of a recently released vision-language foundation model of the retina, FLAIR. In this work, we explore the potential of using FLAIR features as starting point for fundus image classification, and we compare its performance with regard to Imagenet initialization on two popular transfer learning methods: Linear Probing (LP) and Fine-Tuning (FP). Our empirical observations suggest that, in any case, the use of the traditional strategy provides performance gains. In contrast, direct transferability from FLAIR model allows gains of 2.5%. When fine-tuning the whole network, the performance gap increases up to 4%. In this case, we show that avoiding feature deterioration via LP initialization of the classifier allows the best re-use of the rich pre-trained features. Although direct transferability using LP still offers limited performance, we believe that foundation models such as FLAIR will drive the evolution of deep-learning-based fundus image analysis.
翻訳日:2024-01-30 17:50:22 公開日:2024-01-27
# 光学におけるガウスステアリングのモノガミー法則の実証

Demonstration of monogamy laws for Gaussian steering in optomechanics ( http://arxiv.org/abs/2401.15521v1 )

ライセンス: Link先を確認
J El Qars, M Daoud, R Ahl Laamara, N Habiballah(参考訳) セキュリティとセキュリティはコミュニケーションに不可欠です。 そのため、最近量子秘密共有プロトコルが提案され、秘密メッセージを一組の当事者に配布し、復号手続きを個別に禁止し、協調操作が必要である。 このため、量子ステアリングはQSSプロトコルの効率的な実装に有用な資源であることが証明されている。 本稿では,非対称な3モード光学状態におけるガウスステアリングの分布について検討する。 単一モードを他の2つのモードと共同で操作することはできないことを示し,ガウシアンステアリングの単元不等式をさらに検証する。 手元にある状態は、真のトリパルタイトステアリングを表示します。 また, コンフィグレーション (1vs1) モードと (1vs2) モードで一方方向ステアリングを観察した結果, 状態に導入された非対称性は必要条件であるが, 一方方向ステアリングに到達するには不十分であることが判明した。 また、2つのモード間の片方向のステアリングは直接相互作用しない。 厳密には、我々のモデルは極度のステアリングのレベルを示し、2つのシングルモードが個別に第3モードをステアリングできない一方で、それらが集合的に可能である。

Secrecy and security are crucial in communication. So, quantum secret sharing protocol has recently been proposed to distribute a secret message to a set of parties, where the decoding procedure is forbidden individually, and a cooperative operation is needed. For this, quantum steering as an intriguing kind of nonlocality, is proven to be a useful resource for efficient implementations of the QSS protocol. Here, we study the distribution of Gaussian steering over an asymmetric three-mode optomechanical state. We show that a single-mode cannot be jointly steered by the two others, and further verify the monogamy inequalities of Gaussian steering. The state at hand displays genuine tripartite steering. Also, we observe one-way steering in the configuration (1vs1) mode as well as (1vs2) mode, hence, we reveal that the asymmetry introduced into the state we consider, is a necessary condition but not sufficient for reaching one way steering. As well, we detect one-way steering between two modes never directly interact. Strikingly, our model exhibits an extreme level of steering, where two single-mode cannot steer individually the third mode, while, they can collectively, which is decisive for practical execution of the QSS protocol.
翻訳日:2024-01-30 17:49:56 公開日:2024-01-27
# 未知分散によるoracle効率のよいハイブリッドオンライン学習

Oracle-Efficient Hybrid Online Learning with Unknown Distribution ( http://arxiv.org/abs/2401.15520v1 )

ライセンス: Link先を確認
Changlong Wu, Jin Sima, Wojciech Szpankowski(参考訳) 未知のi.d.プロセスによって特徴が生成され、ラベルが逆向きに生成される場合、オラクル効率の良いハイブリッドオンライン学習の問題を考察する。 ERMオラクルへのアクセスを仮定すると、有限VCクラスに対して$\tilde{O}(T^{\frac{3}{4}})$、および$\tilde{O}(T^{\frac{p+1}{p+2}})$に対して$\alpha$fat-shattering dimension$\alpha^{-p}$で満たされた後悔の上界を達成する計算効率の良いオンライン予測器が存在することを示す。 これは、未知の機能生成プロセスを持つハイブリッドオンライン学習に、最初のoracle- efficient sublinear regret boundsを提供する。 特に、Lazaric and Munos(JCSS 2012)の予想を確認している。 そして、その結果を$k$の変更でディストリビューションをシフトするというシナリオに拡張し、$\tilde{o}(t^{\frac{4}{5}}k^{\frac{1}{5}})$という順序の後悔を与えます。 最後に、ある未知の分布から生成されたコンテキストと反対に生成されたコストから生じる有限のポリシーセット$K$武装の包帯に対して、$\tilde{O}((K^{\frac{2}{3}}(\log|\mathcal{H}|)^{\frac{1}{3}}+K)\cdot T^{\frac{4}{5}})$の後悔を確立する。

We study the problem of oracle-efficient hybrid online learning when the features are generated by an unknown i.i.d. process and the labels are generated adversarially. Assuming access to an (offline) ERM oracle, we show that there exists a computationally efficient online predictor that achieves a regret upper bounded by $\tilde{O}(T^{\frac{3}{4}})$ for a finite-VC class, and upper bounded by $\tilde{O}(T^{\frac{p+1}{p+2}})$ for a class with $\alpha$ fat-shattering dimension $\alpha^{-p}$. This provides the first known oracle-efficient sublinear regret bounds for hybrid online learning with an unknown feature generation process. In particular, it confirms a conjecture of Lazaric and Munos (JCSS 2012). We then extend our result to the scenario of shifting distributions with $K$ changes, yielding a regret of order $\tilde{O}(T^{\frac{4}{5}}K^{\frac{1}{5}})$. Finally, we establish a regret of $\tilde{O}((K^{\frac{2}{3}}(\log|\mathcal{H}|)^{\frac{1}{3}}+K)\cdot T^{\frac{4}{5}})$ for the contextual $K$-armed bandits with a finite policy set $\mathcal{H}$, i.i.d. generated contexts from an unknown distribution, and adversarially generated costs.
翻訳日:2024-01-30 17:49:33 公開日:2024-01-27
# 中心対称ヤコビアンを持つ1次元自己相似フラクタル-漸近とモジュラーデータ

1D self-similar fractals with centro-symmetric Jacobians: asymptotics and modular data ( http://arxiv.org/abs/2401.15515v1 )

ライセンス: Link先を確認
Radhakrishnan Balu(参考訳) 1次元の自己相似フラクタルグラフの漸近性を確立し、それらは純粋状態の代数的確率空間に対する量子中心極限定理の観点からノード間の重み付けエッジを許容するネットワークである。 付加的な構造は、自己相似フラクタルを生成する線形グラフの隣接において、中心対称ヤコビアンの繰り返し単位によって与えられる。 遠心対称ヤコビアンによって誘導されるフラクタルの族は、3項の反復関係を満たす直交多項式として定式化された。 この構成は相互作用するフォック空間、T-代数に量子確率空間が与えられ、繰り返し関係のヤコビ係数に対応し、中心対称行列のいくつかの要素が特定の方法で制約されたとき、同じジャコビアン構造が繰り返されるにつれて中心極限が得られる。 物理学で用いられる共形ブロックと確率論的ラプラシアンの基底を形成するレオナルド対の一般的な定式化は、結果の適用性を広げる中心対称ヤコビアンの選択を与える。 これらの1次元フラクタルのT-代数は、距離正則グラフの特別なクラスを形成するため、薄く、帰納的アソシエーションスキームはモジュラ不変系に導かれる自己双対である。

We establish asymptotics of growing one dimensional self-similar fractal graphs, they are networks that allow multiple weighted edges between nodes, in terms of quantum central limit theorems for algebraic probability spaces in pure state. An additional structure is endowed with the repeating units of centro-symmetric Jacobians in the adjacency of a linear graph creating a self-similar fractal. The family of fractals induced by centro-symmetric Jacobians formulated as orthogonal polynomials that satisfy three term recurrence relations support such limits. The construction proceeds with the interacting fock spaces, T-algebras endowed with a quantum probability space, corresponding to the Jacobi coefficients of the recurrence relations and when some elements of the centro-symmetric matrix are constrained in a specific way we obtain, as the same Jacobian structure is repeated, the central limits. The generic formulation of Leonard pairs that form bases of conformal blocks and probablistic laplacians used in physics provide choice of centro-symmetric Jacobians widening the applicability of the result. We establish that the T-algebras of these 1D fractals, as they form a special class of distance-regular graphs, are thin and the induced association schemes are self-duals that lead to anyon systems with modular invariance.
翻訳日:2024-01-30 17:48:55 公開日:2024-01-27
# MiTU-Net: Pubic symphysis-fetal headをセグメント化するためのSegFormerバックボーンを用いた微調整U-Net

MiTU-Net: A fine-tuned U-Net with SegFormer backbone for segmenting pubic symphysis-fetal head ( http://arxiv.org/abs/2401.15513v1 )

ライセンス: Link先を確認
Fangyijie Wang, Guenole Silvestre, Kathleen Curran(参考訳) 超音波測定は, 迷走神経伝達の可能性を予測するための潜在的なツールとして検討されてきた。 進行角(英: angle of progression、aop)は、労働の初期段階において得られる測定可能なパラメータである。 AoPは、パビック・サイロフィクス(PS)の縦軸に沿った直線と、PSの下縁から胎児頭部(FH)の前縁までの直線との角度として定義される。 しかし、超音波画像上でのAoPの測定プロセスは時間がかかり、エラーを起こしやすい。 この課題に対処するために, 胎児の頭部・耳下神経症状の自動分離とAoP測定のためのMix Transformer U-Net(MiTU-Net)ネットワークを提案する。 MiTU-Netモデルはエンコーダ・デコーダ・フレームワークに基づいており、事前訓練された効率的なトランスフォーマーを用いて特徴表現を強化する。 効率的なトランスコーダ内では、モデルはエンコーダ-デコーダモデルのトレーニング可能なパラメータを大幅に削減する。 近年の経会陰超音波データを用いた実験により,提案法の有効性を実証した。 本モデルでは,既存手法と比較して5位にランクインし,競争性能を向上する。 MiTU-Netは、自動セグメンテーションとAoP測定の効率的な方法を示し、エラーを減らし、臨床実習におけるソノグラフィーを支援する。 再現性: https://github.com/13204942/mitu-netで利用可能なフレームワークの実装とモデル。

Ultrasound measurements have been examined as potential tools for predicting the likelihood of successful vaginal delivery. The angle of progression (AoP) is a measurable parameter that can be obtained during the initial stage of labor. The AoP is defined as the angle between a straight line along the longitudinal axis of the pubic symphysis (PS) and a line from the inferior edge of the PS to the leading edge of the fetal head (FH). However, the process of measuring AoP on ultrasound images is time consuming and prone to errors. To address this challenge, we propose the Mix Transformer U-Net (MiTU-Net) network, for automatic fetal head-pubic symphysis segmentation and AoP measurement. The MiTU-Net model is based on an encoder-decoder framework, utilizing a pre-trained efficient transformer to enhance feature representation. Within the efficient transformer encoder, the model significantly reduces the trainable parameters of the encoder-decoder model. The effectiveness of the proposed method is demonstrated through experiments conducted on a recent transperineal ultrasound dataset. Our model achieves competitive performance, ranking 5th compared to existing approaches. The MiTU-Net presents an efficient method for automatic segmentation and AoP measurement, reducing errors and assisting sonographers in clinical practice. Reproducibility: Framework implementation and models available on https://github.com/13204942/MiTU-Net.
翻訳日:2024-01-30 17:48:30 公開日:2024-01-27
# スタイルニューズ:ニューラルフェイクニュース検出のためのスティル化ニュース生成と逆検証

Style-News: Incorporating Stylized News Generation and Adversarial Verification for Neural Fake News Detection ( http://arxiv.org/abs/2401.15509v1 )

ライセンス: Link先を確認
Wei-Yao Wang, Yu-Chieh Chang, Wen-Chih Peng(参考訳) 生成モデルの改善により、様々な領域における幻覚(例えば、法律や著作)を生み出す問題は、誤った情報に対する懸念から人々の注目を集めている。 本稿では,人間を騙すために実際のニュースのスタイルを模倣することを目的とした,ニューラルネットワークが生成したコンテンツを指すニューラルフェイクニュースに焦点をあてる。 有害なソーシャルメディア(例えば、コンテンツファーム)から悪質な偽情報が拡散することを防止するため、出版者メタデータを用いた新しい検証フレームワーク「スタイルニューズ」を提案し、対応するテキストタイプ、政治的スタンス、信頼性を備えた出版社のテンプレートを示唆する。 脅威モデリングの側面に基づいて、特定のパブリッシャに対するニュースコンテンツコンディショニングを生成するための敵としてスタイル対応ニューラルニュースジェネレータを導入し、そのスタイルがどのパブリッシャに対応しているかを特定し、与えられたニュースのソースがヒューマン書きかマシン生成であるかを識別することにより、スタイルおよびソースディミネータをこの攻撃に対して防御するように訓練する。 生成したコンテンツの品質を評価するため,様々な次元のメトリクス(言語流用,コンテンツ保存,スタイル順守)を統合し,スタイルニューズが従来の手法に比べて,流用率0.35,コンテンツ15.24,スタイル0.38で有意に優れていたことを示す。 さらに、我々の差別モデルは出版社予測(4.64%)とニューラルフェイクニュース検出(+6.94%$\sim$ 31.72%)で最先端のベースラインを上回っている。

With the improvements in generative models, the issues of producing hallucinations in various domains (e.g., law, writing) have been brought to people's attention due to concerns about misinformation. In this paper, we focus on neural fake news, which refers to content generated by neural networks aiming to mimic the style of real news to deceive people. To prevent harmful disinformation spreading fallaciously from malicious social media (e.g., content farms), we propose a novel verification framework, Style-News, using publisher metadata to imply a publisher's template with the corresponding text types, political stance, and credibility. Based on threat modeling aspects, a style-aware neural news generator is introduced as an adversary for generating news content conditioning for a specific publisher, and style and source discriminators are trained to defend against this attack by identifying which publisher the style corresponds with, and discriminating whether the source of the given news is human-written or machine-generated. To evaluate the quality of the generated content, we integrate various dimensional metrics (language fluency, content preservation, and style adherence) and demonstrate that Style-News significantly outperforms the previous approaches by a margin of 0.35 for fluency, 15.24 for content, and 0.38 for style at most. Moreover, our discriminative model outperforms state-of-the-art baselines in terms of publisher prediction (up to 4.64%) and neural fake news detection (+6.94% $\sim$ 31.72%).
翻訳日:2024-01-30 17:48:06 公開日:2024-01-27
# エンコーダ-プロトタイプ-デコーダアプローチによる混在する風のクアドロレータ制御

Proto-MPC: An Encoder-Prototype-Decoder Approach for Quadrotor Control in Challenging Winds ( http://arxiv.org/abs/2401.15508v1 )

ライセンス: Link先を確認
Yuliang Gu, Sheng Cheng and Naira Hovakimyan(参考訳) クアドロターは、機動性や機械的な単純さのために、進化する航空ロボティクスの分野でますます使われてきている。 しかし、動的に変化する環境での空力効果やクワッドローターの操作など、固有の不確かさは、伝統的な名目上のモデルベースの制御設計にとって大きな課題となる。 本研究では,多種多様な学習課題間で共有表現と特徴表現を効果的にバランスする,Encoder-Prototype-Decoder (EPD) と呼ばれるマルチタスクメタ学習手法を提案する。 その後、EPDモデルをモデル予測制御問題(Proto-MPC)に統合し、効率的なオンライン実装により動的に変化するタスクに適応し、操作する能力を高める。 提案手法をシミュレーションで検証し, 静的かつ空間的に変化する横風を受けるクアロータの軌道追尾におけるProto-MPCの頑健な性能を示す。

Quadrotors are increasingly used in the evolving field of aerial robotics for their agility and mechanical simplicity. However, inherent uncertainties, such as aerodynamic effects coupled with quadrotors' operation in dynamically changing environments, pose significant challenges for traditional, nominal model-based control designs. We propose a multi-task meta-learning method called Encoder-Prototype-Decoder (EPD), which has the advantage of effectively balancing shared and distinctive representations across diverse training tasks. Subsequently, we integrate the EPD model into a model predictive control problem (Proto-MPC) to enhance the quadrotor's ability to adapt and operate across a spectrum of dynamically changing tasks with an efficient online implementation. We validate the proposed method in simulations, which demonstrates Proto-MPC's robust performance in trajectory tracking of a quadrotor being subject to static and spatially varying side winds.
翻訳日:2024-01-30 17:47:33 公開日:2024-01-27
# ピアツーピアエネルギー取引のためのネットワーク型マルチエージェント強化学習

Networked Multiagent Reinforcement Learning for Peer-to-Peer Energy Trading ( http://arxiv.org/abs/2401.13947v2 )

ライセンス: Link先を確認
Chen Feng and Andrew L. Liu(参考訳) ピアツーピア(P2P)エネルギートレーディングによる地域流通ネットワークにおける分散再生可能およびエネルギー貯蔵資源の利用は、エネルギーシステムのレジリエンスと持続可能性を改善するソリューションとして長年評価されてきた。 しかし、消費者やプロシューマー(エネルギー資源を持っている人々)はp2p取引を繰り返し行う専門知識を持っておらず、再生可能エネルギーのゼロマージコストは公正な市場価格を決定する上での課題となっている。 これらの問題に対処するために,我々は,供給需要比を利用したp2pクリアリング機構の下で,消費者のソーラー太陽光発電とエネルギー貯蔵資源の入札と管理を自動化するマルチエージェント強化学習(marl)フレームワークを提案する。 さらに、MARLフレームワークが物理的なネットワーク制約を統合して電圧制御を実現し、P2Pエネルギトレーディングの物理的実現性を確保し、実際の実装を実現する方法を示す。

Utilizing distributed renewable and energy storage resources in local distribution networks via peer-to-peer (P2P) energy trading has long been touted as a solution to improve energy systems' resilience and sustainability. Consumers and prosumers (those who have energy generation resources), however, do not have the expertise to engage in repeated P2P trading, and the zero-marginal costs of renewables present challenges in determining fair market prices. To address these issues, we propose multi-agent reinforcement learning (MARL) frameworks to help automate consumers' bidding and management of their solar PV and energy storage resources, under a specific P2P clearing mechanism that utilizes the so-called supply-demand ratio. In addition, we show how the MARL frameworks can integrate physical network constraints to realize voltage control, hence ensuring physical feasibility of the P2P energy trading and paving way for real-world implementations.
翻訳日:2024-01-30 11:42:11 公開日:2024-01-27
# Sketch2NeRF:マルチビューのSketch-Guided Text-to-3D ジェネレーション

Sketch2NeRF: Multi-view Sketch-guided Text-to-3D Generation ( http://arxiv.org/abs/2401.14257v2 )

ライセンス: Link先を確認
Minglin Chen and Weihao Yuan and Yukun Wang and Zhe Sheng and Yisheng He and Zilong Dong and Liefeng Bo and Yulan Guo(参考訳) 近年,テキスト記述を用いた高忠実度3Dコンテンツ生成を実現している。 しかし、生成されたオブジェクトは確率的であり、きめ細かい制御がない。 スケッチは、そのような細かい制御を導入するための安価なアプローチを提供する。 それでも、これらのスケッチの抽象化と曖昧さのため、柔軟な制御を実現することは困難である。 本稿では,3d生成にスケッチ制御を追加するために,マルチビューのスケッチガイド付きテキストから3d生成フレームワーク(sketch2nerf)を提案する。 具体的には、トレーニング済みの2次元拡散モデル(例えば、安定拡散と制御ネット)を利用して、ニューラル放射場(NeRF)で表される3次元シーンの最適化を監督する。 我々は、NeRFを効果的に最適化するための新しい同期生成と再構成手法を提案する。 実験では,提案手法を評価するために,2種類のマルチビュースケッチデータセットを収集した。 本手法は,テキストプロンプトに高忠実さを保ちながら,微細なスケッチ制御により3次元一貫したコンテンツを合成できることを実証する。 その結果,スケッチの類似性やテキストのアライメントの観点から,最先端の性能が得られた。

Recently, text-to-3D approaches have achieved high-fidelity 3D content generation using text description. However, the generated objects are stochastic and lack fine-grained control. Sketches provide a cheap approach to introduce such fine-grained control. Nevertheless, it is challenging to achieve flexible control from these sketches due to their abstraction and ambiguity. In this paper, we present a multi-view sketch-guided text-to-3D generation framework (namely, Sketch2NeRF) to add sketch control to 3D generation. Specifically, our method leverages pretrained 2D diffusion models (e.g., Stable Diffusion and ControlNet) to supervise the optimization of a 3D scene represented by a neural radiance field (NeRF). We propose a novel synchronized generation and reconstruction method to effectively optimize the NeRF. In the experiments, we collected two kinds of multi-view sketch datasets to evaluate the proposed method. We demonstrate that our method can synthesize 3D consistent contents with fine-grained sketch control while being high-fidelity to text prompts. Extensive results show that our method achieves state-of-the-art performance in terms of sketch similarity and text alignment.
翻訳日:2024-01-30 11:29:33 公開日:2024-01-27
# 分散スマートカメラによるビデオ分析のためのクロスカメラコラボレーションの実現

Enabling Cross-Camera Collaboration for Video Analytics on Distributed Smart Cameras ( http://arxiv.org/abs/2401.14132v2 )

ライセンス: Link先を確認
Chulhong Min, Juheon Yi, Utku Gunay Acer, and Fahim Kawsar(参考訳) 重なり合うカメラは、さまざまな角度からシーンを見るエキサイティングな機会を与え、より高度で包括的で堅牢な分析を可能にします。 しかし、既存のマルチカメラストリームのビジュアルアナリティクスシステムは、ほとんどが制限されている。 (i)カメラごとの処理・集約及び (ii)ワークロードに依存しない集中型処理アーキテクチャ。 本稿では,スマートカメラ上でのクロスカメラコラボレーションによる分散ビデオ分析システムArgusを紹介する。 マルチカメラ・マルチターゲットトラッキングをマルチカメラ・ビデオ分析の主課題とし、複数のカメラをまたがる視野の重なり合う領域における対物的時空間的関連を利用して、冗長で処理量の多い識別タスクを回避する新しい手法を開発した。 我々はさらに、低レイテンシでクラウドサポートなしで、分散カメラでこれらの操作を実行するための一連の技術を開発する。 (i)カメラ及び被写体検査シーケンスを動的に発注すること。 (II) ネットワーク伝送と不均一な計算能力を考慮して, スマートカメラにワークロードを柔軟に分散する。 2つのnvidia jetsonデバイスによる3つの現実世界の重なり合うカメラデータセットの評価では、argusはオブジェクトの識別数とエンドツーエンドのレイテンシを最大7.13倍と2.19倍に削減している(最先端の4.86倍と1.60倍)。

Overlapping cameras offer exciting opportunities to view a scene from different angles, allowing for more advanced, comprehensive and robust analysis. However, existing visual analytics systems for multi-camera streams are mostly limited to (i) per-camera processing and aggregation and (ii) workload-agnostic centralized processing architectures. In this paper, we present Argus, a distributed video analytics system with cross-camera collaboration on smart cameras. We identify multi-camera, multi-target tracking as the primary task of multi-camera video analytics and develop a novel technique that avoids redundant, processing-heavy identification tasks by leveraging object-wise spatio-temporal association in the overlapping fields of view across multiple cameras. We further develop a set of techniques to perform these operations across distributed cameras without cloud support at low latency by (i) dynamically ordering the camera and object inspection sequence and (ii) flexibly distributing the workload across smart cameras, taking into account network transmission and heterogeneous computational capacities. Evaluation of three real-world overlapping camera datasets with two Nvidia Jetson devices shows that Argus reduces the number of object identifications and end-to-end latency by up to 7.13x and 2.19x (4.86x and 1.60x compared to the state-of-the-art), while achieving comparable tracking quality.
翻訳日:2024-01-30 11:28:14 公開日:2024-01-27
# wal-net:頸動脈プラーク分類のための補助タスク学習ネットワーク

WAL-Net: Weakly supervised auxiliary task learning network for carotid plaques classification ( http://arxiv.org/abs/2401.13998v2 )

ライセンス: Link先を確認
Haitao Gan, Lingchao Fu, Ran Zhou, Weiyan Gan, Furong Wang, Xiaoyan Wu, Zhi Yang and Zhongwei Huang(参考訳) 頸動脈超音波画像の分類は頸動脈プラークの診断に重要な手段であり,脳卒中リスクの予測に重要な臨床的意義を持っている。 近年の研究では,分類の補助タスクとしてプラークセグメンテーションを利用することで,セグメンテーションと分類タスクの相関を利用した性能の向上が期待されている。 しかし、このアプローチは相当量のチャレンジ・トゥ・ア・ア・セグメンテーションアノテーションを取得することに依存している。 本稿では, 頸動脈プラーク分類とセグメンテーションタスクの相互依存性を検討するために, 弱教師付きタスク学習ネットワークモデル(WAL-Net)を提案する。 プラーク分類タスクはプライマリタスクであり、プラーク分割タスクは補助タスクとして機能し、プライマリタスクのパフォーマンスを向上させるための貴重な情報を提供する。 セグメンテーションアノテーションへの依存を完全に遮断するために、補助タスクにおいて弱教師付き学習が採用される。 武漢大学成南病院の頸動脈プラーク超音波画像1270例を対象に実験および評価を行った。 その結果,提案手法は,ベースラインネットワークと比較して頸動脈プラーク分類精度が約1.3%向上した。 具体的には,混合音声プラーク分類の精度が約3.3%向上し,アプローチの有効性が示された。

The classification of carotid artery ultrasound images is a crucial means for diagnosing carotid plaques, holding significant clinical relevance for predicting the risk of stroke. Recent research suggests that utilizing plaque segmentation as an auxiliary task for classification can enhance performance by leveraging the correlation between segmentation and classification tasks. However, this approach relies on obtaining a substantial amount of challenging-to-acquire segmentation annotations. This paper proposes a novel weakly supervised auxiliary task learning network model (WAL-Net) to explore the interdependence between carotid plaque classification and segmentation tasks. The plaque classification task is primary task, while the plaque segmentation task serves as an auxiliary task, providing valuable information to enhance the performance of the primary task. Weakly supervised learning is adopted in the auxiliary task to completely break away from the dependence on segmentation annotations. Experiments and evaluations are conducted on a dataset comprising 1270 carotid plaque ultrasound images from Wuhan University Zhongnan Hospital. Results indicate that the proposed method achieved an approximately 1.3% improvement in carotid plaque classification accuracy compared to the baseline network. Specifically, the accuracy of mixed-echoic plaques classification increased by approximately 3.3%, demonstrating the effectiveness of our approach.
翻訳日:2024-01-30 11:27:48 公開日:2024-01-27